2008年4月 7日

[Namazu-users-ja 1079] Re: gcnmz が非常な時間を要するようになった

臼田です

今回の件は .emacs の設定が悪くレアなフォーマットのファイルが
できていたということのようなので
mailnews.pl の修正をしなくてもよいのかなと思っています。

ただ、提供されたサンプルを見ていて気になる点がありました。

On 2008/04/07, at 21:10, Tadamasa Teranishi wrote:
>
> パートごとにコードが異なる場合についてまでは考慮していないので、
> mailnews.pl は pre_codeconv でファイル丸ごとフィルタに渡
> す前に
> コード変換を行っています。
>
> このため、最初の方に UTF-8 な文字列(この場合、
> Subject)があると、
> 全体を UTF-8 とみなして変換を行うため、本文の JIS
> が変換されず、
> 文字化け状態となります。

オプション指定しなくても勝手に mime デコードをする
nkf 挙動にも気になるところがあります。

nkf2.0.4 と nkf2.0.7 で
白井さんのサンプルの243と247をそれぞれ試しましたが

nkf2.0.4 で nkf -e にかけると
Subject の mime デコードが
 243 ではきちんと変換できる
 247 では一つ目の行しか変換されませんでした。
後方の ISO-2022-JP 部分はどちらもきちんと変換できる

nkf2.0.7 で nkf -e にかけると
Subject の mime デコードが
 243、247 ともきちんと変換される
後方の ISO-2022-JP 部分は
 243 ではきちんと変換される
 247 では変換されない

処理の流れから難しいのかもしれませんが
2.0.4 の結果を改善するような結果になるとよいのですが。
mime エンコード部分は文字コードが明らかになっているので
文字コード推測では mime 部分以外を対象に行ってもよいか
と思うのですが。

臼田幸生

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 7日 23:25
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71883
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。