2008年12月20日

[Namazu-users-ja 1131] Re:namazuのキーワード数限界値について

寺西です。

doihr@xxxxx wrote:
>
> namazuでインデックスに登録されるキーワード数に限界値が存在するかどうか、
> ご存知の方、もしくは、何か知恵をお貸し頂ける方おられましたら、教えてくださ
> い。

単語の登録数の限界についてですが、おそらく 2^31 ぐらいが限界でしょう。
しかし、単語の登録数の限界の前に別の限界に引っかかります。

> 7日間かかりましたが、インデックス作成は無事完了したように
> NMZ.logから見受けられます。

# チューニングして使いましょう。(^_^;

普通は巨大なひとつのインデックスを使うのではなく、複数のインデックス
に分けて作成して使いますけど...。

ところで

> Total Keywords: 108,033,263

とありますが、この単語は全て有効なものなんでしょうか?

何となくゴミが入ってそれで単語数が爆発的に増えているのではないか
とか思ったりします。
というのも、1文書あたり平均約250個も新しい単語があるわけですから...。

> ファイル数、ファイルサイズともに大きなディレクトリに対して、

そのファイルサイズの大きなものとはどのような種類のファイルなので
しょう。
Namazu が対応していない形式のファイルとかが含まれていて、
別の文書ファイルと誤認されていないでしょうか。
特に mknmz に -a オプションなんてつけて実行していないですよね?

> しかし、コマンドライン、namazu.cgi(GUI)ともに検索を試みると、
> 下記のように、インデックスを認識してくれません。
...
> 参考ヒット数: [ (インデックスが開けませんでした) ]
> 検索式にマッチする文書はありませんでした。

今、ソースを確認できる環境ではないので、このエラーが発生する
条件は確認できませんが、調べてみましょう。

インデックスファイルのどれかが壊れているか、あるいはファイル
サイズが2GBを越えているからではないかとか、というのが今思い
付くことです。

> ファイル数と、サイズは当メーリングリストの過去最高記録を
> 下回っていますが、キーワード数1億以上の実績ってありますか?

過去最高記録って、報告していただいたものに過ぎませんし、それと
Namazu の限界とは関係ないです。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja


投稿者 xml-rpc : 2008年12月20日 19:09
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/80254
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。