(已解決)pdftotext 的指令要怎麼下呢? [論壇 - Ubuntu 與 GNOME]


正在瀏覽:   1 名遊客


 到底部   前一個主題   下一個主題  [無發表權] 請登錄或者註冊

(1) 2 »


(已解決)pdftotext 的指令要怎麼下呢?
會員五級
註冊日期:
2008/11/21 9:18
所屬群組:
已註冊使用者
等級: 23
HP : 0 / 571
MP : 229 / 17254
EXP: 84
離線
這是我由財政部下載來的營業人清單 pdf,

123.pdf

我想把它轉成 text 檔
試了指令 pdftotext 123.pdf 123.txt
雖然轉出來了,但卻不是一列一列格式
請教各位先進,這指令適用於這個檔嗎?

又,我這樣的檔有3千多個(全國),要怎麼一次轉完?

2012/7/10 10:32
應用擴展 工具箱
回覆: pdftotext 的指令要怎麼下呢?

註冊日期:
2009/12/6 10:32
所屬群組:
已註冊使用者
等級: 71
HP : 1404 / 1756
MP : 4456 / 47711
EXP: 24
離線
雖然轉出來了,但卻不是一列一列格式

試試 增加 參數
-eol unix | dos | mac
Sets the end-of-line convention to use for text output.
我這樣的檔有3千多個(全國),要怎麼一次轉完?

可能需要寫個 script file

2012/7/10 11:14
應用擴展 工具箱
回覆: pdftotext 的指令要怎麼下呢?
會員五級
註冊日期:
2008/11/21 9:18
所屬群組:
已註冊使用者
等級: 23
HP : 0 / 571
MP : 229 / 17254
EXP: 84
離線
謝謝指教!
但,加了-eol unix | dos | mac 仍然無效!
但加上 -raw 或 -layout 則可成功了
謝謝提示該網址!

接下來,麻煩的是,我會寫一些程式
但,偏不會寫 script

請問有範例可參考否?

2012/7/10 12:35
應用擴展 工具箱
回覆: pdftotext 的指令要怎麼下呢?

註冊日期:
2009/12/6 10:32
所屬群組:
已註冊使用者
等級: 71
HP : 1404 / 1756
MP : 4456 / 47711
EXP: 24
離線
我有分三次測試
但均無效

但,-raw 或 -layout 則可

寫script 比較麻煩,
我不會,再找找範例看看

謝謝您

2012/7/10 12:48
應用擴展 工具箱
回覆: pdftotext 的指令要怎麼下呢?
版主
註冊日期:
2008/7/14 0:03
來自 螢幕的另一端
所屬群組:
網站管理員
已註冊使用者
討論區管理群
等級: 32
HP : 0 / 798
MP : 496 / 24959
EXP: 94
離線
嗯,我最近正在練功,練習寫 shell script 的功力。
把你的檔案和指令發給我一些,我試著幫你寫寫看吧。

指令呢,就是你已經成功轉檔的指令,附上完整的指令和參數、檔名。

換句話說,就是我照你給的指令執行,出來就是你要的東西。
只要能轉換成一個檔案即可。

其它的檔案,批次轉換的,我幫你寫script

2012/7/10 12:59
應用擴展 工具箱
回覆: pdftotext 的指令要怎麼下呢?

註冊日期:
2009/12/6 10:32
所屬群組:
已註冊使用者
等級: 71
HP : 1404 / 1756
MP : 4456 / 47711
EXP: 24
離線
加了-eol unix | dos | mac 仍然無效!

抱歉 沒說清楚
-eol unix # 用於 Linux 含 Ubuntu
-eol dos # 用於 Windows
-eol mac # 用於 Apple mac
| 表示 選項
您可以再試試

2012/7/10 13:46
應用擴展 工具箱
回覆: pdftotext 的指令要怎麼下呢?
會員五級
註冊日期:
2008/11/21 9:18
所屬群組:
已註冊使用者
等級: 23
HP : 0 / 571
MP : 229 / 17254
EXP: 84
離線
十分感謝夢見草幫忙


可以成功的指令如下例
pdftotext -raw /tmp/pdf/123.pdf /tmp/txt/123.txt

就是把 /tmp/pdf/ 中的所有pdf檔轉換到 /tmp/txt/ 中的同檔名的txt檔

麻煩您了!
謝謝先!

2012/7/10 15:07
應用擴展 工具箱
回覆: pdftotext 的指令要怎麼下呢?
版主
註冊日期:
2008/7/14 0:03
來自 螢幕的另一端
所屬群組:
網站管理員
已註冊使用者
討論區管理群
等級: 32
HP : 0 / 798
MP : 496 / 24959
EXP: 94
離線
檔案收到了,建議你盡快將連結移掉吧 (我直接幫你移了)
往後這樣的東西,你可以發私人訊息給我

2012/7/10 15:33
應用擴展 工具箱
回覆: pdftotext 的指令要怎麼下呢?
版主
註冊日期:
2008/7/14 0:03
來自 螢幕的另一端
所屬群組:
網站管理員
已註冊使用者
討論區管理群
等級: 32
HP : 0 / 798
MP : 496 / 24959
EXP: 94
離線
shell script程式寫好了

程式碼不能直接貼上來,有些字會被吃掉,只好改上傳檔案來。

若附件下載有問題,可到我的 blog 來看
http://blog.vic.mh4u.org/2012/722

附件:


sh pdf2txt.sh 大小: 1.23 KB; 下載次數: 235

2012/7/10 17:33
應用擴展 工具箱
回覆: (已解決)pdftotext 的指令要怎麼下呢?
會員五級
註冊日期:
2008/11/21 9:18
所屬群組:
已註冊使用者
等級: 23
HP : 0 / 571
MP : 229 / 17254
EXP: 84
離線
感謝夢見草幫忙,
指令非常好用,註解也很清楚
將來也可供其他網友使用。

這已經很好用了,若基於您練功的出發點,
那麼,有沒有可能再加上幾個特點呢?

1.來源及去路的資料夾名稱,能否以參數代入?
例如  pdf2txt.sh [fromdir] [todir]
2.若來源的/tmp/pdf資料夾其下還有多層子資料夾,那麼,本script能否遞迴執行,連其下的子資料夾都一併轉檔?
3.有沒有可能把所有的pdf合併成一個txt轉出?
 例如 pdf2txt.sh /tmp/pdf /tmp/txt/allpdf.txt
如果要這樣的話,那麼,參數可能得改成二個
pdf2txt.sh -d /tmp/pdf /tmp/txt #一對一個轉到另一個資料夾
pdf2txt.sh -f /tmp/pdf /tmp/txt/allpdf.txt #全部pdf合併轉成一個txt檔

又,感謝您幫我移除檔案連結,因為那是政府公開的資料,比較沒有隱私問題,對了,那三千多個pdf包括全國的公司行號資料,由財政部網站下載,我自己寫了一支程式去下載的,不知您是否有興趣練習把它改成 script,我可以提供相關訊息。

2012/7/11 10:42
應用擴展 工具箱

(1) 2 »

 [無發表權] 請登錄或者註冊


可以查看帖子.
不可發帖.
不可回覆.
不可編輯自己的帖子.
不可刪除自己的帖子.
不可發起投票調查.
不可在投票調查中投票.
不可上傳附件.
不可不經審核直接發帖.