2006年10月25日

[Namazu-devel-ja 1323] Re: mknmz の処理時間短縮

臼田です

On 2006/10/25, at 1:03, Tadamasa Teranishi wrote:
>
> 微妙なこの時期に(笑)

リリースには影響を与えないように
2.0.17 以降のテーマのひとつということで考えています。


>
>> html と pdf で1200ほどのファイルを対象として
>> 2.0.17 を試し下記のような結果になっています。
>
> 2.0.17 はまだ出ていませんが、それはともかく、1200 程度の
> ファイルでは
> 微妙ではありますが、
テスト用にほどほどの量を用意して試しています。
この程度の量であれば今の処理時間でも不満にはなりません。

>
>> %Time ExclSec CumulS #Calls sec/call Csec/c Name
>> 11.3 12.37 20.572 19 0.6515 1.0827
>> mknmz::write_phrase_hash_sub
>> 9.43 10.28 10.280 873244 0.0000 0.0000 mknmz::hash
>> 8.41 9.159 9.159 5089 0.0018 0.0018 mknmz::wordcount_sub
>> 8.18 8.912 19.192 1269 0.0070 0.0151 mknmz::make_phrase_hash
>> 6.94 7.563 7.563 144435 0.0000 0.0000 mknmz::readw
>> 6.88 7.492 12.866 19 0.3943 0.6771 mknmz::write_index_sub
>
> この結果からすると、$ON_MEMORY_MAX を 2桁ほど増や
> すと、高速化しま
> せんか?

2.0.17RC2 の mknmz で $ON_MEMORY_MAX を 2桁増
やして試しました。
処理時間が半分程度になりました。
いろいろ考えさせられる結果です。

・ conf.pl の初期値が今の時代のマシンスペックに合っていない
 直しておいてはどうか
・こんな簡単に速くなるのならばFAQに書いておくべきだ
・環境を調べて推奨設定を書き出すツールを作ってはどうか
・ボトルネックは他にあったようだ


[Base]
Date: Wed Oct 25 20:49:03 2006
Added Documents: 1,269
Size (bytes): 100,022,725
Total Documents: 1,269
Added Keywords: 63,253
Total Keywords: 63,253
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 134
File/Sec: 9.47
System: darwin
Perl: 5.008006

Total Elapsed Time = 115.7423 Seconds
User+System Time = 50.04233 Seconds
Exclusive Times
%Time ExclSec CumulS #Calls sec/call Csec/c Name
12.6 6.336 6.345 22160 0.0003 0.0003 File::MMagic::magicMatchStr
9.59 4.799 4.799 5089 0.0009 0.0009 mknmz::wordcount_sub
7.68 3.845 3.845 865 0.0044 0.0044 html::get_title_attr
6.96 3.485 3.485 865 0.0040 0.0040 html::get_alt_attr
6.91 3.459 3.459 200174 0.0000 0.0000 mknmz::hash
5.16 2.581 6.040 1269 0.0020 0.0048 mknmz::make_phrase_hash
5.02 2.514 4.715 824 0.0031 0.0057 util::syscmd
3.70 1.850 1.917 1283 0.0014 0.0015 File::MMagic::checktype_data
3.59 1.797 6.601 1269 0.0014 0.0052 mknmz::count_words
3.39 1.696 2.887 865 0.0020 0.0033 html::remove_html_elements
2.87 1.438 1.742 1721 0.0008 0.0010 util::readfile
2.57 1.285 1.285 2538 0.0005 0.0005 gfilter::line_adjust_filter
2.46 1.231 1.231 289717 0.0000 0.0000 html::element_space
2.38 1.189 1.189 31859 0.0000 0.0000 IO::File::open
2.29 1.145 6.990 418 0.0027 0.0167 pdf::filter

臼田幸生

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年10月25日 21:42
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48253
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。