2008年4月 4日

[Namazu-users-ja 1053] Re: gcnmz が非常な時間を要するようになった

寺西です。

野宮 賢 / NOMIYA Masaru wrote:
>
> # mknmz -azEK update ~/News.nmz ~/var/news
>
> と,日々走らせています.( ~/var/news 配下には,凡そ 63.5万ファイルがあります).

インデックス分けたらどうでしょうか?
2つに分けると、通常、個々のインデックスの作成時間は1/2以下になります。
gcnmz も同様に個々の処理時間はそれぞれ 1/2 以下になり、トータル時間は
短縮されます。

また、-a を日常的に使うのはどうかと思いますよ。

> 考えられる原因は,従来,text/plain で取り込んでいたものを text/html 形式で
> 取り込むようにし,その多くのファイルが,
>
> Content-Transfer-Encoding: base64
> Content-Disposition: inline
> Content-Type: image/jpeg
> Content-ID: <shimbun.inline.0.0.2000056020.20370762.20370762%news.japan.cnet.com>
>
> /9j/4RmlRXhpZgAASUkqAAgAAAALAA4BAgAgAAAAkgAAAA8BAgAFAAAAsgAAABABAgAHAAAAuAAA
> [...]
> pvvt9asB8f3fxpoln//Z
>
> という形式の添付ファイルを含むからでは?,と考えています.

まぁそうでしょう。

> (申し訳ありませんが,著作権の関係でファイルをお見せすることは出来ません

ならば、自力でなんとかしてくださいとしか言えません。
何せ、どんな形式のファイルなのかもわからないのでは、対応しようが
ありませんから。

> この base64 な添付ファイルを含むものが増えた為に時間が掛かるようになった,
> という理解は間違いでしょうか?

あまりにも情報が少ないので何ともいえませんが、その可能性が高い
のではないでしょうか?

たぶん、インデックスのサイズがその前後で随分変わったんではないかと
思いますよ。

> 何とか gcnmz に要する時間を短縮したいのですが,方策を思い付きません.

よくわかりませんが、text/html 形式で取り込む前に、添付ファイルを削除
する処理を追加すれば良いのではないかと思います。
そうすれば、インデックス作成時間も短縮されるでしょう。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 4日 00:43
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71745
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。