2008年4月27日

[Namazu-devel-ja 1706] ISO-2022-JP の HTML に対する --html-split オプションのバグ

寺西です。

ISO-2022-JP の HTML ファイルを mknmz --html-split で分割処理した場合、
タイトルが文字化けすることが分かりました。

調査したところ、コード変換せずに HTML タグの解析を行っていたため、
ISO-2022-JP のコードの '<' をタグの一部と誤認していたようでした。

stable-2-0
pl/htmlsplit.pl を修正し、コード変換を行うようにしました。
また、ファイルを閉じていない箇所があったのでこれを修正しました。

development-2-1, HEAD
archive/html.pl を修正し、コード変換を行うようにしました。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2008年4月27日 11:01
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/72606
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。