2006年9月20日

[Namazu-devel-ja 1229] Re: 検索精度の問題

寺西です。

NOKUBI Takatsugu wrote:
>
> > ちなみに、削除文書はそのインデックスに随分含まれていたのでしょうか?
> > それとも、ほとんど削除文書は含まれていなかったのでしょうか?
>
> これはまったく含まれていませんでした。


残念。

そうすると、純粋にヒット数が多い場合に遅いということですね。
O(n^2) という箇所はないと思うので、係数が大きいのかなぁ。
確かに先のコピーの件でも、nmz_data は24バイトですから、ポインタなら
1/6の速度で済むので n が非常に大きい時には効いてくるかもしれません。

# それともまだどこかに O(n^2) の処理が残っているのか...

> あと、1000万ファイルという話をしましたが、サイズも結構大きくて全体で
> 30GBぐらいのHTML文章です。大規模インデックスの人柱としては結構いい感じ
> だとは思います。

30GBですか。それはすごい。
というか、インデックスがよく作れたものです。

> > 32bit 越えはともかく、インデックス形式の見直しは必要でしょうね。
> > 検索速度よりも、インデックスの更新速度の遅さがより問題で、その遅さの
> > 原因は現在のインデックス形式に(も)ありますから。
>
> そうですね。とはいえ旧来のインデックスからの移行パスはなにかしら欲し
> いところです。変換するか、インデックス層を抽象化して選べるようにするか...

変換ツールを用意して、移行してもらうのが現実的でしょうね。
そうでないと、旧インデックスのメンテナンスをずっとしないといけません
から。せめて変換ツールのメンテナンスぐらいで抑えましょう。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年9月20日 14:46
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/46222
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。