2008年4月 3日

[Namazu-users-ja 1052] gcnmz が非常な時間を要するようになった

野宮です.

[Software]
1. OS : openSuSE 10.3 (Linux linux 2.6.22.17-0.1-default #1 SMP
2008/02/10 20:01:04 UTC x86_64 x86_64 x86_64 GNU/Linux
2. namazu : 2.0.18
3. Mecab : 0.97
3. perl : 5.8.8


[Hardware]
1. CPU : Opteron 270 (Dual Core) x 2
2. Memory : 1GB x 4
3. HDD : U320 SCSI 146GB

の環境で,mknmz

読み込んだ設定ファイル: /home/masaru/.mknmzrc
システム: linux
Namazu: 2.0.18
Perl: 5.008008
File-MMagic: 1.27
NKF: module_nkf
KAKASI: no
茶筌: no
和布蕪: module_mecab -Owakati -b 8192
わかち書き: module_mecab -Owakati -b 8192
メッセージの言語: ja_JP.eucJP
言語: ja_JP.eucJP
文字コード: euc
CONFDIR: /usr/local/etc/namazu
LIBDIR: /usr/lib/perl5
FILTERDIR: /usr/local/share/namazu/filter
TEMPLATEDIR: /usr/local/share/namazu/template
対応メディアタイプ: (41)
未対応メディアタイプ: (7) 必要ツールが $path にないものには (-) を表示
application/excel: excel.pl
application/gnumeric: gnumeric.pl
application/ichitaro5: taro56.pl
application/macbinary: macbinary.pl
application/msword: msword.pl
application/pdf: pdf.pl
- application/postscript: postscript.pl
application/powerpoint: powerpoint.pl
- application/rtf: rtf.pl
application/vnd.kde.kivio: koffice.pl
application/vnd.kde.kpresenter: koffice.pl
application/vnd.kde.kspread: koffice.pl
application/vnd.kde.kword: koffice.pl
application/vnd.oasis.opendocument.graphics: ooo.pl
application/vnd.oasis.opendocument.presentation: ooo.pl
application/vnd.oasis.opendocument.spreadsheet: ooo.pl
application/vnd.oasis.opendocument.text: ooo.pl
application/vnd.openxmlformats-officedocument.presentationml: msofficexml.pl
application/vnd.openxmlformats-officedocument.spreadsheetml: msofficexml.pl
application/vnd.openxmlformats-officedocument.wordprocessingml: msofficexml.pl
application/vnd.sun.xml.calc: ooo.pl
application/vnd.sun.xml.draw: ooo.pl
application/vnd.sun.xml.impress: ooo.pl
application/vnd.sun.xml.writer: ooo.pl
application/vnd.visio: visio.pl
application/x-apache-cache: apachecache.pl
application/x-bzip2: bzip2.pl
application/x-compress: compress.pl
- application/x-deb: deb.pl
application/x-dvi: dvi.pl
application/x-gzip: gzip.pl
- application/x-js-taro: taro7_10.pl
application/x-rpm: rpm.pl
- application/x-tex: tex.pl
application/x-zip: zip.pl
- audio/mpeg: mp3.pl
message/news: mailnews.pl
message/rfc822: mailnews.pl
text/hnf: hnf.pl
text/html: html.pl
text/html; x-type=mhonarc: mhonarc.pl
text/html; x-type=pipermail: pipermail.pl
text/plain
text/plain; x-type=rfc: rfc.pl
text/x-hdml: hdml.pl
text/x-roff: man.pl

# mknmz -azEK update ~/News.nmz ~/var/news

と,日々走らせています.( ~/var/news 配下には,凡そ 63.5万ファイルがあります).

ここで,時折,

# gcnmz ~/News.nmz

を走らせるのですが,ある時から(ハッキリ覚えていませんm(_ _)m),終了に至る
迄の時間がそれ迄の 3.5倍にもなり,少々困っています.

実は,今も,

[Append]
Date: Thu Apr 3 00:46:38 2008
Added Documents: 728
Updated Documents: 19
Size (bytes): 5,717,096
Total Documents: 635,132
Added Keywords: 130,401
Total Keywords: 3,910,434
Wakati: module_mecab -Owakati -b 8192
Time (sec): 567
File/Sec: 1.32
System: linux
Perl: 5.008008
Namazu: 2.0.18

と mknmz を実行した後,gcnmz を走らせましたが,終了時間は,

2008-04-03 23:37

となりました.

考えられる原因は,従来,text/plain で取り込んでいたものを text/html 形式で
取り込むようにし,その多くのファイルが,

Content-Transfer-Encoding: base64
Content-Disposition: inline
Content-Type: image/jpeg
Content-ID: <shimbun.inline.0.0.2000056020.20370762.20370762%news.japan.cnet.com>

/9j/4RmlRXhpZgAASUkqAAgAAAALAA4BAgAgAAAAkgAAAA8BAgAFAAAAsgAAABABAgAHAAAAuAAA
[...]
pvvt9asB8f3fxpoln//Z

という形式の添付ファイルを含むからでは?,と考えています.
因みに,mknmz の完了に要する時間は以前と大差ありません.
(申し訳ありませんが,著作権の関係でファイルをお見せすることは出来ません
m(_ _)m.が,以前寺西さんが「おかしなtext/html形式だな」と仰ったものです).

この base64 な添付ファイルを含むものが増えた為に時間が掛かるようになった,
という理解は間違いでしょうか?

何とか gcnmz に要する時間を短縮したいのですが,方策を思い付きません.

アドヴァイス等を頂戴出来れば,幸甚です.

---
野宮 賢 mail-to: nomiya @ galaxy.dti.ne.jp

「私たちが今日直面している化学物質の危険性に関する疑問に対し、通常の
科学的な正確さをもって答えようとすれば、たぶんさらに数十年を要するで
あろう。」 -- J. V. Rodricks --
_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 3日 23:47
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71724
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。