2006年9月20日

[Namazu-devel-ja 1227] Re: 検索精度の問題

寺西です。

NOKUBI Takatsugu wrote:
>
> > しかし、MaxHit を増やすことで解決する話ではないのでしょうか?
>
> いちおう解決はするのですが、さすがに結構な速度低下をまねきます。

そうすると、ヒット数が多い場合に速度が落ちるということですね。
であれば、インデックスを分割したことで速度が落ちたということではない
かもしれませんね。(インデックス単位で MaxHit のチェックが行われる
ので、インデックスを分割するということは MaxHit を増やすことと等価
なため *1)

なお、その落ち方が n なのか n * log n 程度なら、まぁ妥当なところですが、
n ^ 2 だったりするのであれば問題ですね。

> 具体的には、1つにまとめたインデックスが0.1秒以内に検索が完了するとし
> て、50程度に分割した場合は4-5秒ぐらいかかるようになりました。
> 寺西さんがおっしゃるように、複合的な他の要因もあるかもしれません。
> ちょっと調査が甘かったです。

そうですね。何か複合的な他の要因があるかもしれませんね。

ちなみに、削除文書はそのインデックスに随分含まれていたのでしょうか?
それとも、ほとんど削除文書は含まれていなかったのでしょうか?

削除文書がかなりの割合(というよりも、削除文書数が多いだけでも
問題になるかも...)含まれていたということであれば、今回の修正で
多少改善されるかもしれません。
# しないかもしれませんが。

> 今こちらの方面についてはあまり時間がかけられないのですが、できるだけ
> 新しいバージョンで確認しようとは思っています(当時確認したのは2.0.16)。

余力のある時にお願いします。

ちなみに 2.0.14 以前だと、もっと速かったってことはあるかもしれ
ません。
MaxHit の判定を 2.0.15 で変えたためです。ただし、MaxHit の判定は
2.0.15 以前はおかしかったので、それで速かったとしてもあまり意味のない
ことですが...。

確か 2.0.15 の時に nmz_get_hlist を呼び出すところを増やしたのですが、
この中から nmz_do_date_processing を呼び出していまして、削除文書が
多いと遅くなるということが起こっているように思います。

そのため、2.0.14 以前は MaxHit より少ない時でも打ち切られることで
処理は速く終わったものが、2.0.15 ではより厳密に MaxHit を取り扱う
ことで処理が遅くなったように見えているということが、起こっています。

2.0.16 に変えたら遅くなったという話をたまに聞くのですが、この辺りが
原因ではないかと思います。

いずれにしても今回の修正で、改善されるのではないかと期待していますが、
どんなものでしょうね。

# 求む大規模インデックス利用者の人柱!!

当初の考えに反して、意外に 2.0.17 のリリースには意味が出てきたような
気がしてきました。

> > 「中小規模」だって言っているのに、かなり大規模で使おうとする方は
> > 沢山いらっしゃいますね。
> > ただ、そろそろ中規模ってのも時代の流れで、Namazu が想定する中規模
> > より大きくなってきているような気もしますので、より規模の大きなもの
> > への対応は必要ではないかと思います。
>
> 確かにそうかもしれません。ただ、今のインデックス形式はあまりスケール
> しない上に32bitの壁があるので、やるならそのあたりも考慮したいところです。

32bit の壁越えですか。
32bit 越えはともかく、インデックス形式の見直しは必要でしょうね。
検索速度よりも、インデックスの更新速度の遅さがより問題で、その遅さの
原因は現在のインデックス形式に(も)ありますから。

*1 これはこれでいいのか? とも思いますが、現状そうですから...。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年9月20日 13:52
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/46219
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。