2007年11月 5日

[Namazu-users-ja 993] namazuで透明テキスト付きPDF検索が出来ない

通常のPDF(Word等から生成したPDF)は検索出来るのですが、スキャナ等で読み
込み、e.TypistまたはScanPaperで透明テキスト付きPDFにすると検索してもHit
しません。
e.Typist等での確認では、ほぼ文字認識し、テキスト化されているようです。
認識後のテキストをコピーして、メモ帳とかに貼り付けても問題無く表示されま
す。
AcrobatでのPDF内検索では検索はOKでした。
namazuでindex化する場合には、何かオプションが必要なのでしょうか?

どなたかご指導お願い致します。
また、情報が少ないと思いますので、ご指摘もお願い致します。

環境:
・Freebsd6.2
・namazu2.0.17
・Perl5.008
・e.Typist v12.0体験版にて透明テキスト付きPDFに変換
・Index作成
 #!/bin/tcsh
 setenv LANG ja_JP.eucJP
 setenv LC_ALL ja_JP.eucJP
 setenv PEAL_BADLANG 0
 cd /usr/local/var/namazu/index
 /usr/local/bin/mknmz -U /usr/local/www/data/test -O /usr/local/var/namazu/index/test
・http.confにて、mod_encodingの設定
 <IfModule mod_encoding.c>
 EncodingEngine on
 SetServerEncoding EUC-JP
 AddClientEncoding "namazu" JA-AUTO-SJIS-MS SJIS
 </IfModule>
・namazurcの設定
 Lang ja_JP.eucJP

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2007年11月 5日 15:46
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/66022
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。