2007年12月 5日

[Namazu-users-ja 1016] Re: PDF検索について

寺西です。

Ikegi Arata wrote:
>
> 強調文字も当然ありません。先頭数行ではなく、最初にキーワードが
> ある箇所の前後数行という表示にはならないのでしょうか。

現状ではなりませんね。


この要約部分というのは、この文書がどのような内容のものかを示すもの
にすぎず、検索語近辺の文書を表示するものではないためです。

現在のところ PDF に限らず、文書の要約はインデックス作成時に作成し
ます。要約は主に文書の先頭部分から作られ、NMZ.field.summary に1文書
1行単位で保存されます。*1
文字列の最大長は $MAX_FIELD_LENGTH で指定できますが、デフォルトで
200文字、最大でも1024文字までとなっています。

つまり、要約部分は表示されている部分のテキストしかインデックスには
保存されておらず、それ以外の領域のテキストはインデックスにはありま
せん。

将来的には、インデックス作成時に抽出したテキスト全てを圧縮して
インデックスに保存することで、この機能を実装するかもしれません。
しかし、インデックスの巨大化は避けられないでしょう。

なお、該当文書を nmzcat でテキストの抽出が可能ですので、これと検索語
から、検索語近辺の文書を抽出する CGI を作成して組み合わせれば、
それらしいものが作れなくもないとは思いますが...。

*1 これは、フィルタや後処理によって、NMZ.field.summary の中身を書き
換えることが可能であるということにもなります。これにyり、静的では
ありますが、要約を好きな文書に書き換えるということもできます。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2007年12月 5日 01:29
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/67265
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。