2011年7月26日

[Namazu-devel-ja 1869] Re:stable-2-0 に 2.0.21 を反映

寺西です。

(2011/07/25 21:07), SATOH Fumiyasu wrote:
>> UTF-8 から UTF-8 への変換として iconv に渡してしまえば
>> 不正文字を '?' に置換してもらえるということはないでしょうか?
>
> iconv(3) は EILSEQ か EINVAL で失敗するだけで、不正文字を ? に
...

> できない文字を捨ててくれるようですが、GNU libc 以外では
> 使えません。
>
> # そういうことではなくて?

そういう話です。
iconv には頼ることができないと考えていますので、自前でチェック
するか、他のライブラリでチェックする必要があるかと思います。

> UTF-8 として正しいかというチェックは何気に難しいのが悩ましいところ
> です。チェックの前に正規化をしないといけないのですが、この正規化が
> これまた厄介なので。

ICU で正規化はできると思いますが、チェックもできるのであれば
ICU に全て任せてしまうというのが楽でいいかもしれません。

ICU でチェックが無理なら正規化した後、自前でチェックするという
ことが必要ということになっちゃいますね。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja


投稿者 xml-rpc : 2011年7月26日 06:50
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/105214
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。