2009年8月23日

[Namazu-users-ja 1157] Re:mknmzにてPDFインデックス作成できない maybe copying protectionの表示

寺西です。

森田 光貴 wrote:
>
> しかし、題名どおりにPDFをインデックス化しようとすると
> maybe copying protectionの表示がありインデックス化できません。
...
> パスワードも添付されておりませんし、xpdfのlangauge packも導入しています。

> ちなみに読み込んでいるPDFは紙媒体をスキャンしたものもありますし、
> WORDなどからPDF作成したものもあります。(adobe acrobat 7 standard 使用)

ざっと見た限りでは設定に問題はなさそうです。
それでは、特定の PDF ファイルで発生するのか、全ての PDF ファイルで
発生するのかを確認してみてください。

特定の PDF ファイルで問題が発生する場合は、そのファイルを pdftotext
で変換してみてください。

$ pdftotext -enc ECU-JP file.pdf out.txt

何かエラーメッセージが表示されるでしょうか?
out.txt ファイルは作成されるでしょうか? 作成された場合、0バイトの
ファイルになっていないでしょうか?
確認してみてください。

ちなみに 紙媒体をスキャンしたもの については画像データしか PDF に
含まれていない場合は、テキストは抽出できません。
スキャンした時に OCR でテキストを抽出して、それが PDF に含まれて
いる場合は抽出できると思います。

また、公開しても大丈夫なサンプルデータを提供していただけるなら、
手元の環境でテキスト抽出が可能かどうかを確認することぐらいは
できます。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2009年8月23日 18:44
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(1)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/87814
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。