2008年4月 6日

[Namazu-users-ja 1056] Re: gcnmz が非常な時間を要するようになった

野宮です.

In the Message;

Subject : [Namazu-users-ja 1055] Re: gcnmz が非常な時間を要するようになった
Message-ID : <47F790F4.4B69EDAB@xxxxx>
Date & Time: Sat, 05 Apr 2008 23:47:16 +0900

[寺西さん] == Tadamasa Teranishi <yw3t-trns@xxxxx> has written:

寺西さん> これはテキストとして処理していた時と、HTML として処理した時との話です
寺西さん> ので、それらの比較をしないと意味がありません。

なるほど.

寺西さん> 基本的に HTML にマルチパートという概念はありません。

言われてみれば,確かに.^^;;

寺西さん> また、どういった理由で -K オプションで base64 なパートが無視される
寺西さん> と思ったのでしょう。

base64のパートには記号が多いということからの全くの勘違いでした.

小生>> 3. インデックス作成範囲を指定する形式(これは,
小生>> http://www.namazu.org/ml/namazu-users-ja/msg03573.html で廣瀬さんがお示
小生>> しになっている方法に従い,html.pl のパッチを当て,.mknmzrc に
小生>>
小生>> $SUMMARY_PAT = "<body>(.*?)</body>";
小生>>
小生>> を加えて,

寺西さん> 応用しようとしているのでしょうが、元のパッチの意味を理解せずに
寺西さん> やっているために、意図した通りには動いていないでしょう。

寺西さん> <body>
寺西さん> ここすべて(もちろんタグも含めて)が要約になっているはず。
寺西さん> </body

寺西さん> です。

ようやく,意味を了解するに至りました.
あくまで,Summary なんですね.

寺西さん>>> よくわかりませんが、text/html 形式で取り込む前に、添付ファイルを削除
寺西さん>>> する処理を追加すれば良いのではないかと思います。

寺西さん> ということです。ご自身で </html> タグの後ろを削除したものを mknmz
寺西さん> に渡してください。

と,いうことになりますね.

寺西さん> もちろん、そういう処理を html.pl に追加してもいいですが...。

やりたいのは山々ですが..... ^^;;;

ともあれ,インデックスが損傷しているのでは(思い当たる節があります)と,考
え,インデックスを再作成しました.
その際,廣瀬さんがお示しになった html.pl.dif を当てると共に,.mknmzrc に

$SUMMARY_PAT = "<body>(.*?)</body>";

を加え,尚且つ, $ON_MEMORY_MAX の値を 50MB から 300MB に増やし,mknmz を
走らせ,床に就きました.今日の夕方位まで掛かるだろうと思っていましたが,何
と,朝起きましたら終了しており,観ましたら,所要時間は6時間弱で,大変驚きま
した.「$ON_MEMORY_MAX」は,今更ながら,「Namazuの豆知識」を参考にさせて戴
きました.m(_ _)m

この上で gcnmz を走らせた結果に就いては,後日,改めて報告させて戴きます.

---
野宮 賢 mail-to: nomiya @ galaxy.dti.ne.jp

「私たちが今日直面している化学物質の危険性に関する疑問に対し、通常の
科学的な正確さをもって答えようとすれば、たぶんさらに数十年を要するで
あろう。」 -- J. V. Rodricks --
_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 6日 16:19
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71845
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。