2008年4月 7日

[Namazu-users-ja 1080] Re: gcnmz が非常な時間を要するようになった

寺西です。

"Hideyuki SHIRAI (白井秀行)" wrote:
>
> > このため、最初の方に UTF-8 な文字列(この場合、Subject)があると、
> > 全体を UTF-8 とみなして変換を行うため、本文の JIS が変換されず、
> > 文字化け状態となります。
>

> まぁ、レアケースだからいいかなぁ〜、という気がします。

もう少し書くと、UTF-8 の自動認識は NKF に依存しています。
NKF 2.0 以降なら対応していると思いますが、バージョンにより多少
振る舞いが違うかもしれません。
UTF-8 といっても日本語しか対応していないはずです。外国のメールとか
だと、それはそれで不具合がでるでしょう。

また、英語環境では NKF が走らないので、エンコードされたままで
しょう。

本来はパートごとのキャラセットの対応をしないといけないのですが、
内部処理を UTF-8 にした 2.2/2.3系で実現するのが現実的なので、
2.0系ではあまり対応したいとは思っていません。

# ってな話を昔書いたような...。

> P.S.
> 個人的に mailnews.pl でやりたいことは、multipart な メールで
> 全部のファイルサイズが思いっきりでかくても、通常、最初の text パー
> トはそんなに大きくないので、text/plain なパートだけ抜き出して
> mknmz を行なう、ということなのですが、以前チャレンジして玉砕しま
> した。

通常 text パートは切り出されると思うので、各パートをデコード
した時のサイズで判定するようにファイルサイズチェックを加工すれば
良いだけではないかと思います。
マルチパートと似たものとしてはアーカイブ系のフィルタがありますが、
それらはそのようになっているのではないかと思います。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 7日 23:40
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71884
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。