2006年10月28日

[Namazu-devel-ja 1344] Re: mknmz の処理時間短縮

寺西です。

Yukio USUDA wrote:
>
> Tadamasa Teranishi wrote:
> > こうやって見るとやっぱり File::MMagic が重いですね。
> > 並列化できそうな処理のような気もするので、遊ぶネタとしては File::MMagic
> > の並列化は良いかな。


File::MMagic の C 版を元に GPU 使って並列化って話ですけどね。

> mknmz 自体も細かくモジュール化して並列処理できるよう
> にしたいですね。

個々の文書の処理はインデックスに登録するまでは独立しているので、
プロセスかスレッドを分けて処理し、結果をサーバに渡してインデックス
に登録するというのでできそうな気はしますね。

> > あとは hash が呼び出される回数が多い分、予想に反して効いていますね。
> >
> これは、 インデックス途中書き出し処理があると mknmz::hash の
> 呼び出し回数が増えるためのようですが、どうしてでしょう。

......ありえないような気がします。はて???

出来上がったインデックスに違いはないのですよね?

mknmz::make_phrase_hash の回数に変更がないので、$$contref の中身が
違うか、next の条件を満たす何らかの変化($conf::WORD_LENG_MAX が
違っているとか)しているとかしか考えられませんよね。

mknmz を何度か書き換えておられると思いますが、同じ mknmz でテスト
されていますよね??


ところで、
Namazu-devel-ja#1315 の時は、

Added Keywords: 50,227
Total Keywords: 50,227

でしたが、Namazu-devel-ja#1323 では

Added Keywords: 63,253
Total Keywords: 63,253

と増えています。それはまた何故???
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年10月28日 12:34
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48394
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。