2011年7月27日

[Namazu-devel-ja 1877] Re:stable-2-0 に 2.0.21 を反映

臼田です

On 2011/07/27, at 3:06, Tasamasa Teranishi wrote:
>
> (2011/07/26 22:45), Yukio USUDA wrote:
>> 内部コードの utf-8 にする際にチェックをするように
>> しました。 Unicode の正規化とは関係なく utf-8 ならば
>> ftp://ftp.rfc-editor.org/in-notes/std/std63.txt

>> のなかに入るでしょうからここからはずれるものを空白に
>> 置き換えています。
>
> なぜUnicode の正規化の話を持ち出しているのかということを
> ご理解ください。

セキュリティ対策の話と検索精度の話はとりあえずわけて
ひとつづつ片付けていきたいと思っています。

UTF-8 のエンコーディングをWebで扱う上でセキュリティ上
注意する点として非最短形式で表現されうる文字の問題が
あります。
http://www.jpcert.or.jp/sc-rules/c-msc10-c.html

今回のパッチでは
RFC3629 UTF-8, ISO 10646 を変換したフォーマット
http://www.akanko.net/marimo/data/rfc/rfc3629-jp.txt
(日本語訳もありました)に書かれている範囲を愚直に
チェックして範囲外の文字を削除してしまっているので
UTF-8の非最短形式で表現されている文字も不正なものとして
除去されるはずです。
非最短形式は一般的には不正な表現でしょうから正規化して
利用する必要は無いと思います。私が「正規化」という単語
から連想していたのはこの件です。

で、寺西さんのおっしゃっている正規化の話は検索精度に
関わる話のようなので別のメールに変えて続けたいと思います。


>
>> これで tests/ja-namazu-cgi-3 はクリアします。
>> diffをつけています。
>
> だから、ja_JP.eucJP 決め打ちはダメだって。

今回のテストは EUC-JP のページを表示する場合で発生する問題の
確認なので、ja_JP.eucJP でテストしないと意味がないと考えて
いるのですが、、、
今回の件とは別に文字コード関連はいろいろ課題がありそうなので、
今後徐々に複数の環境を網羅できるケースのテストを追加(既存のテ
ストの修正?)をしていこうと思います。

そもそも CGI が環境変数に影響されていることと、make check
が環境変数によって動作を変えるということも疑問があるので
なんとかしたいところです。

臼田幸生

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja


投稿者 xml-rpc : 2011年7月27日 21:56
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/105222
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。