2006年10月29日

[Namazu-devel-ja 1346] Re: mknmz の処理時間短縮

臼田です

On 2006/10/28, at 12:34, Tadamasa Teranishi wrote:

>
>>> あとは hash が呼び出される回数が多い分、予想に反して効
>>> いていますね。
>>>

>> これは、 インデックス途中書き出し処理があると
>> mknmz::hash の
>> 呼び出し回数が増えるためのようですが、どうしてでしょう。
>
> ......ありえないような気がします。はて???
>
> 出来上がったインデックスに違いはないのですよね?
>
> mknmz::make_phrase_hash の回数に変更がないので、$
> $contref の中身が
> 違うか、next の条件を満たす何らかの変化
> ($conf::WORD_LENG_MAX が
> 違っているとか)しているとかしか考えられませんよね。
>
> mknmz を何度か書き換えておられると思いますが、同じ
> mknmz でテスト
> されていますよね??

手を加えていない 2.0.17RC2で
再度試したところ下記のような結果になりました。
どうやら[Namazu-devel-ja 1323]は環境変数 LANG を設定
していない状態で動作させていたようです。
お騒がせしました。
処理時間の比は半分ではなく 3/4 ぐらいのようです。


$ON_MEMORY_MAX 初期値(19回インデックス書きだしあり)
Total Elapsed Time = 173.7392 Seconds
User+System Time = 108.6692 Seconds
Exclusive Times
%Time ExclSec CumulS #Calls sec/call Csec/c Name
11.2 12.20 20.552 19 0.6425 1.0817 mknmz::write_phrase_hash_sub
9.17 9.970 9.970 873244 0.0000 0.0000 mknmz::hash
8.41 9.139 9.139 5089 0.0018 0.0018 mknmz::wordcount_sub
8.40 9.132 19.102 1269 0.0072 0.0151 mknmz::make_phrase_hash
6.71 7.293 7.293 144435 0.0000 0.0000 mknmz::readw
6.66 7.232 13.006 19 0.3806 0.6845 mknmz::write_index_sub
5.91 6.426 6.435 22160 0.0003 0.0003 File::MMagic::magicMatchStr
5.03 5.470 5.470 176718 0.0000 0.0000 Text::Kakasi::xs_do_kakasi
4.43 4.816 4.816 278933 0.0000 0.0000 mknmz::get_last_docid
3.59 3.905 3.905 865 0.0045 0.0045 html::get_title_attr
3.03 3.295 3.295 865 0.0038 0.0038 html::get_alt_attr
2.91 3.159 20.973 1269 0.0025 0.0165 mknmz::count_words
2.60 2.824 5.344 825 0.0034 0.0065 util::syscmd
2.26 2.455 2.455 2538 0.0010 0.0010 gfilter::line_adjust_filter
1.93 2.100 2.157 1283 0.0016 0.0017 File::MMagic::checktype_data

[Base]
Date: Sun Oct 29 18:34:17 2006
Added Documents: 1,269
Size (bytes): 100,022,725
Total Documents: 1,269
Added Keywords: 50,227
Total Keywords: 50,227
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 241
File/Sec: 5.27
System: darwin
Perl: 5.008006

Namazu: 2.0.17RC2


$ON_MEMORY_MAX 増加後(インデックス書きだしは最後の1回のみ)
Total Elapsed Time = 143.4740 Seconds
User+System Time = 80.23402 Seconds
Exclusive Times
%Time ExclSec CumulS #Calls sec/call Csec/c Name
13.9 11.19 20.512 1269 0.0088 0.0162 mknmz::make_phrase_hash
11.6 9.320 9.320 873244 0.0000 0.0000 mknmz::hash
10.1 8.129 8.129 5089 0.0016 0.0016 mknmz::wordcount_sub
8.13 6.526 6.525 22160 0.0003 0.0003 File::MMagic::magicMatchStr
6.56 5.260 5.260 176718 0.0000 0.0000 Text::Kakasi::xs_do_kakasi
5.28 4.239 20.643 1269 0.0033 0.0163 mknmz::count_words
4.80 3.855 3.855 865 0.0045 0.0045 html::get_title_attr
4.09 3.285 3.285 865 0.0038 0.0038 html::get_alt_attr
3.73 2.994 5.704 825 0.0036 0.0069 util::syscmd
2.60 2.085 2.085 2538 0.0008 0.0008 gfilter::line_adjust_filter
2.37 1.905 1.905 2538 0.0008 0.0008 NKF::nkf
2.31 1.850 1.947 1283 0.0014 0.0015 File::MMagic::checktype_data
2.01 1.616 2.817 865 0.0019 0.0033 html::remove_html_elements
1.81 1.449 1.449 31861 0.0000 0.0000 IO::File::open
1.57 1.261 1.261 289717 0.0000 0.0000 html::element_space

[Base]
Date: Sun Oct 29 18:51:41 2006
Added Documents: 1,269
Size (bytes): 100,022,725
Total Documents: 1,269
Added Keywords: 50,227
Total Keywords: 50,227
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 178
File/Sec: 7.13
System: darwin
Perl: 5.008006

Namazu: 2.0.17RC2

臼田幸生

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年10月29日 20:13
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48448
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。