2006年8月29日

[Namazu-devel-ja 1188] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

臼田です。

Tadamasa Teranishi wrote:
>>
>> さらにバグってまして...修正版です。
>>
>> * UTF-8 4バイト 対応です。
>>

>
> # そろそろ使えそうかな?
>
これを入れてもらうと tests/ja-namazu-5 も通るように
なりますね

テストスクリプトを試してみていたら
Encode::Guess は "utf-8 or utf-8-strict"
というのを返すときがありました。
慎重な判定なのかもしれませんが
かなり厳密ですね。

Text::Iconv の使用についてですが
Iconv は変換できない文字が1byteでも入っていると
全ての変換を放棄するので
この癖がそのままでるのであれば
対応方法はあるはずですが、これもやっかいかもしれません。

臼田幸生
_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年8月29日 08:19
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/45036
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。