Unix command > pdftotext

更新日 2014-12-19
広告
pdftotextは、PDFから文字列を抽出することができるコマンドです。 xpdfパッケージをインストールすれば使えるようになります。
$ sudo apt-get install xpdf
以下のように使います。
$ pdftotext test.pdf

これでtest.txtが生成されます。 pdfファイルと同じディレクトリに生成されます。

標準出力したければ、ハイフンを指定します。

$ pdftotext test.pdf -
デフォルトで、マルチカラムな文書も考慮してくれます。 ただし、図中の文字や図の説明なども、基本的には上から出力するので、抽出される文章の順番がおかしくなることはあります。
広告
お問い合わせは sweng.tips@gmail.com まで。
inserted by FC2 system