2011年7月27日

[Namazu-devel-ja 1879] Re:stable-2-0 に 2.0.21 を反映

寺西です。

(2011/07/27 21:56), Yukio USUDA wrote:
>> なぜUnicode の正規化の話を持ち出しているのかということを
>> ご理解ください。
>
> セキュリティ対策の話と検索精度の話はとりあえずわけて
> ひとつづつ片付けていきたいと思っています。


Unicode の正規化は、検索精度の話だけではありません。
持ち出しているのは、セキュリティ対策の話とからむからです。

> 今回のパッチでは
> RFC3629 UTF-8, ISO 10646 を変換したフォーマット
> http://www.akanko.net/marimo/data/rfc/rfc3629-jp.txt
> (日本語訳もありました)に書かれている範囲を愚直に
> チェックして範囲外の文字を削除してしまっているので
> UTF-8の非最短形式で表現されている文字も不正なものとして
> 除去されるはずです。

チェックして範囲外の文字をスペース変換することは良いと
思います。(それはする必要がある)
ただ、それだけでは不十分だと思われるので...。

話はそれますが、そのチェックの方ですが
ざっとコードを見ただけなんで、勘違いかもしれませんけど、
5バイト、6バイト文字がきちんとスペース変換できていない
のではないかと思います。
大丈夫ですかね? 5バイト、6バイト文字の次の文字が文字化け
したりしそうでしたが...。

>> だから、ja_JP.eucJP 決め打ちはダメだって。
>
> 今回のテストは EUC-JP のページを表示する場合で発生する問題の
> 確認なので、ja_JP.eucJP でテストしないと意味がないと考えて
> いるのですが、、、

なので、HEAD に ja-namazu-cgi-3 が意味がないって話です。

> 今回の件とは別に文字コード関連はいろいろ課題がありそうなので、
> 今後徐々に複数の環境を網羅できるケースのテストを追加(既存のテ
> ストの修正?)をしていこうと思います。

仕組みをきちんと作り直すのを先にしてください。
いろいろ増えてからやり直すと手間が増えます。それを懸念して
います。

> そもそも CGI が環境変数に影響されていることと、make check
> が環境変数によって動作を変えるということも疑問があるので
> なんとかしたいところです。

UNIX ですから。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja


投稿者 xml-rpc : 2011年7月27日 23:30
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/105225
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。