2008年4月 7日

[Namazu-users-ja 1063] Re: gcnmz が非常な時間を要するようになった

寺西です。

野宮 賢 / NOMIYA Masaru wrote:
>
> 小生の保有するファイル群の場合,</html>タグ以下を無視する,というFilterでは
> 駄目で,Content-Type: image/* なマルチパートを無視するというFilterにしなけ
> ればならないようです.

重要な情報が後から出てくるのはどうにかならないものかと思いますが...。

> <html>
> <body>
> 本文1
> </body>
> </html>
>
> <html>
> <body>
> 本文2
> </body>
> </html>
>
> Content-Type: image/*
> [...]
>
> という形式のものがあるからです.

ならば、もう完全に独自ファイル形式なので、独自のフィルタを作るしか
ないでしょう。

> 全て 1ページなら -h オプションを使えるのですが.

それも正しい結果は得られません。無理やり過ぎます。

> ともあれ,Content-Type: image/* を無視するFilterが mailnews.pl にあるという
> ところまでは解りました.

だからといって何の役にも立ちませんけど。

> ということです。ご自身で </html> タグの後ろを削除したものを mknmz
> に渡してください。
> もちろん、そういう処理を html.pl に追加してもいいですが...。

結局複数ページなので、独自フィルタを用意する他、対処しようがあり
ません。
html.pl は当然のことながら単一ページにしか対応していませんから。

「複数ページの HTML を処理でき、添付ファイルを無視する独自フィルタ
を作成して対応する」というのがまっとうな方法です。

が、独自フィルタを作れるスキルはなさそうですので...

「複数ページの HTML をまとめて1ページの HTML に変換して、それを
mknmz に渡す」のが良いかと思います。

当然、自力で変換する必要があるわけですが、複数ページをまとめる
作業には w3m や lynx のようなテキストブラウザが使えるかもしれません。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 7日 00:10
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71851
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。