2011年7月26日

[Namazu-devel-ja 1868] Re:stable-2-0 に 2.0.21 を反映

寺西です。

(2011/07/25 20:13), Yukio USUDA wrote:
> HEAD でテストがクリアしない原因ですが

HEAD は何もまだ対策していないので、ja-namazu-cgi-3 が PASS
しなくても当たり前じゃないでしょうか。

出力が UTF-8 なのにパスしないとかということでしょうか?

> Query として入力された不正な文字列はどの文字コードにも属さ
> ないので nmz_codeconv_jp での文字コード判定に失敗している
> のが要因ではないかと思っています。

ん? その場合は、不正文字ということになりますので、そこで
何らかの対策をすれば良いということになります。
そのチェックは比較的簡単じゃないですかね。
問題はそこよりも。

> また、 UTF-8 の文字列は現在変換を省略していますが、
> UTF-8 から UTF-8 への変換として iconv に渡してしまえば
> 不正文字を '?' に置換してもらえるということはないでしょうか?

iconv にそれを期待してはいけないでしょうね。

> チェック前の正規化というのはどのレベルのものでしょうか?
> 英数字の全角半角変換は入っていたかと思います。

UNICODE の正規化という話です。

http://ja.wikipedia.org/wiki/Unicode%E6%AD%A3%E8%A6%8F%E5%8C%96

たぶん Namazu では NFC で正規化したものを扱うというのが
良いのだろうと思いますが。

で、UNICODE の正規化には、GPL ライセンスと互換性があるICUが
使えないかと思っています。

# Mac のファイル名の正規化は NFC じゃないので、NFC に変換
# しないと統一して扱えないけど、変換しちゃうとまたいろいろ
# 問題も出てくるとか、頭の痛い問題はあります。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E
_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja


投稿者 xml-rpc : 2011年7月26日 06:43
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/105213
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。