2006年4月19日

[Namazu-devel-ja 1040] Re: そろそろNam azu 2.3.X 開発スタート

寺西です。

NOKUBI Takatsugu wrote:
>
> 後者は実データを持たないといけないので、できればインデックスデータだ
> けで完結するようにしたほうがいいかな、と思います。ファイルシステム以外
> のものもインデックス対象にしたい、という構想も持っていますし。

後者の場合であっても、nmzcat がそのままネットワーク対応になるでしょう
から、ネットワーク先から取ってこれるようになるはずですので、そのことは
問題にはならないでしょう。

前者のメリットは、テキストファイルをインデックス作成時に作ることが
できるため、検索時に取り出すのが高速にできるということ。
前者のデメリットは、圧縮したテキストファイルをインデックスに持つこと
によるインデックスの肥大化(数十万ファイルとかだとかなり)と、インデッ
クス作成時間の増加です。

後者のメリットは前者のデメリットがないことです。しかし、
後者のデメリットとしては、検索時に時間がかかるという最大の問題が
あります。
キャッシュを用意すれば、ある程度解決するかもしれません。

# これは、けっして後者がいいよという話ではありません。

> > 私はむしろ uni-gram 検索よりも、位置情報付きフレーズ検索の方が
> > 面白いかなぁと思っています。
>
> それも面白いですね。テキストデータを持っていれば、そこからリニアに検
> 索しても大した手間ではないんじゃないかと思っています。どうせサマリの生
> 成も同じ作業が必要になりますし。

なるほど。
でも、ヒット数が多いと結構きつい処理ではないかと思います。
サマリの生成は、1ページ分処理すれば良いのですが、フレーズ検索では
全件処理する必要がありますから。

> > 他の検索エンジンから nmzcat を呼び出せば上記のメリットをそのまま
> > 受けられるのではないかと思います。
>
> はい、実はnmzcatに大きな衝撃を受けています。かなり応用のきくツールで
> すよね。以前、フィルタ部分のデバッグを容易にしたいという思いがあったの
> ですが、これのおかげでそれも実現できます。臼田さんには感謝しています。

nmzcat の応用例として、「プラグイン/ヘルパーアプリケーションがなくて
も文書の内容を確認できる方法」を紹介しておきます。

検索結果に PDF や Word 等の文書がある場合、ブラウザにプラグインや
ヘルパーアプリケーションがインストールされていないと、これらの中身を
確認することができませんが、nmzcat を利用することで、プラグインや
ヘルパーアプリケーションがインストールされていない場合でも、中身をみる
ことができるようになります。

http://namazu.asablo.jp/blog/2006/04/19/333549

# まぁ、google のマネなんですけど。


これも前者の方法で圧縮したテキストファイルとして持っておれば、簡単
に実現できます。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年4月19日 15:43
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41313
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。