2006年10月27日

[Namazu-devel-ja 1340] Re: mknmz の処理時間短縮

寺西です。

Yukio USUDA wrote:
>
> %Time ExclSec CumulS #Calls sec/call Csec/c Name
> 12.6 6.336 6.345 22160 0.0003 0.0003 File::MMagic::magicMatchStr
> 9.59 4.799 4.799 5089 0.0009 0.0009 mknmz::wordcount_sub
> 7.68 3.845 3.845 865 0.0044 0.0044 html::get_title_attr

> 6.96 3.485 3.485 865 0.0040 0.0040 html::get_alt_attr
> 6.91 3.459 3.459 200174 0.0000 0.0000 mknmz::hash
> 5.16 2.581 6.040 1269 0.0020 0.0048 mknmz::make_phrase_hash
> 5.02 2.514 4.715 824 0.0031 0.0057 util::syscmd
> 3.70 1.850 1.917 1283 0.0014 0.0015 File::MMagic::checktype_data
> 3.59 1.797 6.601 1269 0.0014 0.0052 mknmz::count_words
> 3.39 1.696 2.887 865 0.0020 0.0033 html::remove_html_elements
> 2.87 1.438 1.742 1721 0.0008 0.0010 util::readfile
> 2.57 1.285 1.285 2538 0.0005 0.0005 gfilter::line_adjust_filter
> 2.46 1.231 1.231 289717 0.0000 0.0000 html::element_space
> 2.38 1.189 1.189 31859 0.0000 0.0000 IO::File::open
> 2.29 1.145 6.990 418 0.0027 0.0167 pdf::filter

こうやって見るとやっぱり File::MMagic が重いですね。
並列化できそうな処理のような気もするので、遊ぶネタとしては File::MMagic
の並列化は良いかな。

html::get_title_attr 等のパターンマッチングも重いですね。これは
(正規表現を書き換えると高速化したりする気はします。)

あとは hash が呼び出される回数が多い分、予想に反して効いていますね。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年10月27日 09:52
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48350
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。