2008年4月 7日

[Namazu-users-ja 1064] Re: gcnmz が非常な時間を要するようになった

臼田です

On 2008/04/06, at 23:43, 野宮 賢 / NOMIYA Masaru wrote:
> 小生の保有するファイル群の場合,</html>タグ以下を無視す
> る,というFilterでは
> 駄目で,Content-Type: image/* なマルチパートを無視すると
> いうFilterにしなけ
> ればならないようです.

> つまり,ファイルに拠っては,元記事が複数ページに亘る,即ち,
>
> <html>
> <body>
> 本文1
> </body>
> </html>
>
> <html>
> <body>
> 本文2
> </body>
> </html>
>
> Content-Type: image/*
> [...]
>
> という形式のものがあるからです.
>

Internet Explorer上で作成されたウェブページのアーカイブ形式のよ
うにも
見えますが。
このファイルは html ではなく mhtml ファイルなのでは
ないでしょうか?

それであれば mailnews.pl がそのまま対応していて
base64 部分も
インデックス時に除去できます。
最初の <html> の前にもメールヘッダのようなものがついていま
せんか?
mknmz 実行時にはどのようなファイルとして認識されていますか?

ファイルのフォーマットや何で作成されたファイルなのかということは
できるだけ具体な実例を示していただいた方が解決が早くなります。

臼田幸生

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 7日 00:17
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71855
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。