2006年9月20日

[Namazu-devel-ja 1226] Re: 検索精度の問題

At Wed, 20 Sep 2006 11:32:48 +0900,
Tadamasa Teranishi wrote:
> > namazu.cgi(libnmz)の検索では長い文字列があたえられた時、インデックス
> > 内に登録されている単語リストから、最長一致で単語を分割し、それらの検索
> > 結果の和を求めます。
>
> 本件とは特に関係ないですが、厳密にはそうはなっていないはずです。
> (そうなっていない部分は、修正する必要はあるかなとは思っているので

> すが...。)

あ、そうでしたっけ。

> しかし、MaxHit を増やすことで解決する話ではないのでしょうか?

いちおう解決はするのですが、さすがに結構な速度低下をまねきます。

> 多少のオーバーヘッドはあると思いますが、マージの際に結構な速度低下が
> あるということですが、具体的にどの辺りで速度低下するか確認されました
> でしょうか?

ああすいません、プロファイルまではとっていませんでした。Sparc
Solaris上だったのでやりかたがよくわかっていなかったです。

具体的には、1つにまとめたインデックスが0.1秒以内に検索が完了するとし
て、50程度に分割した場合は4-5秒ぐらいかかるようになりました。
寺西さんがおっしゃるように、複合的な他の要因もあるかもしれません。
ちょっと調査が甘かったです。

今こちらの方面についてはあまり時間がかけられないのですが、できるだけ
新しいバージョンで確認しようとは思っています(当時確認したのは2.0.16)。

> 「中小規模」だって言っているのに、かなり大規模で使おうとする方は
> 沢山いらっしゃいますね。
> ただ、そろそろ中規模ってのも時代の流れで、Namazu が想定する中規模
> より大きくなってきているような気もしますので、より規模の大きなもの
> への対応は必要ではないかと思います。

確かにそうかもしれません。ただ、今のインデックス形式はあまりスケール
しない上に32bitの壁があるので、やるならそのあたりも考慮したいところです。
--
野首 貴嗣
E-mail: knok@xxxxx
knok@xxxxx / knok@xxxxx

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年9月20日 13:08
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/46215
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。