2011年8月27日

[Namazu-devel-ja 1885] Re:大量ファイルでのmknmzのメモリ不足について

青柳です。

これまた古い話題で恐縮ですが

On Sun, 26 Jun 2011 17:04:18 +0900
Tasamasa Teranishi <yw3t-trns@xxxxx> wrote:

> (2011/06/26 11:19), Shigekazu Aoyagi wrote:

> > ファイル名を数字の並び順にソートしている部分ですが、ざっと考えて
> ...
> > 試しにですが、上記のソート処理をコメントアウトしてみたところ
> > 200万件のデータでもインデクシングを開始できることを確認しました。
> ...
> > ソート処理をコメントアウトしたまま、小さなテストデータでインデックスを
> > 作成してみたところ、特に問題なく終了しました。また、namazuコマンドで
> > 正常に検索も行えているようです。
>
> 出来上がったインデックスファイルの中身は、Namazu の仕様の
> インデックスとは異なっているかと思います。
>
> 影響範囲がどの程度かは予測するのは難しいのですが、このルールで
> ソートしないと文書IDの振り方が変わってしまうので、想定している
> 順の文書IDにはならず、そのインデックスを使って検索した結果は、
> 検索結果の表示順(モードにもよりますが)に違いが生じたりはする
> でしょう。
> (検索結果のソートで、キーの値が同じ時は文書ID順で表示される
> ので、その場合、ファイル名に番号が付いているものの表示順番が
> 変わるものと思われます。)
>
> また、複数のインデックスをマージ等する時にもソートされている
> ことを前提で処理を行っていたかと思いますので、何らかの問題が
> 出ても不思議ではありません。

例えばですが

echo '3' > 3.txt
mknmz .
echo '1' > 1.txt
mknmz .
echo '2' > 2.txt
mknmz .

というようにしてインデックスを作成すると、ファイルの順は
 3.txt
 1.txt
 2.txt
となりソートされていませんが、これは Namazu のインデックスとして
正常であるものと思われます。

とすれば、上記ご指摘の通り検索結果表示順に違いはでるかもしれませんが
ファイル名でソートされていることは仕様として必須ではないのでは
ないかと思えるのですが、いかがでしょうか。
--
Shigekazu Aoyagi <aoyagi@xxxxx>

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja


投稿者 xml-rpc : 2011年8月27日 15:19
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/105905
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。