2008年4月 5日

[Namazu-users-ja 1055] Re: gcnmz が非常な時間を要するようになった

寺西です。

野宮 賢 / NOMIYA Masaru wrote:
>
> 寺西さん> たぶん、インデックスのサイズがその前後で随分変わったんではないかと
> 寺西さん> 思いますよ。

これはテキストとして処理していた時と、HTML として処理した時との話です

ので、それらの比較をしないと意味がありません。

> どうにも府に落ちません,つまり,mknmz に -K というオプションを付けているの
> で base64 なパートは無視される筈では?,と思いましたので,テストをしてみま
> した.

基本的に HTML にマルチパートという概念はありません。

また、どういった理由で -K オプションで base64 なパートが無視される
と思ったのでしょう。

> 3. インデックス作成範囲を指定する形式(これは,
> http://www.namazu.org/ml/namazu-users-ja/msg03573.html で廣瀬さんがお示
> しになっている方法に従い,html.pl のパッチを当て,.mknmzrc に
>
> $SUMMARY_PAT = "<body>(.*?)</body>";
>
> を加えて,

応用しようとしているのでしょうが、元のパッチの意味を理解せずに
やっているために、意図した通りには動いていないでしょう。

<body>
ここすべて(もちろんタグも含めて)が要約になっているはず。
</body

です。

> という四通りでやってみました.その結果,NMZ.i,NMZ.w 等のファイル・サイズは,

なので、このテストの意味はほとんどありません。

で。

> <html>
> <head>
> [...]
> </head>
> <body>
>
> html 形式の本文
>
> </body>
> </html>
>
> base64 の添付ファイル

というファイルは HTML ファイルとしては、標準的なものではありま
せん。
# まぁ、</html> タグで閉じた後に何かいてもいいだろうという話は
# なきにしもあらずですが。仕様としては微妙なんではないかと。

で、先のメールにも書きましたが...。

> よくわかりませんが、text/html 形式で取り込む前に、添付ファイルを削除
> する処理を追加すれば良いのではないかと思います。

ということです。ご自身で </html> タグの後ろを削除したものを mknmz
に渡してください。
もちろん、そういう処理を html.pl に追加してもいいですが...。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 5日 23:47
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71836
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。