Unix command > pdftotext
更新日
2014-12-19
広告
pdftotextは、PDFから文字列を抽出することができるコマンドです。
xpdfパッケージをインストールすれば使えるようになります。
$ sudo apt-get install xpdf以下のように使います。
$ pdftotext test.pdf
これでtest.txtが生成されます。 pdfファイルと同じディレクトリに生成されます。
標準出力したければ、ハイフンを指定します。
$ pdftotext test.pdf -デフォルトで、マルチカラムな文書も考慮してくれます。 ただし、図中の文字や図の説明なども、基本的には上から出力するので、抽出される文章の順番がおかしくなることはあります。
広告
お問い合わせは sweng.tips@gmail.com まで。