2007年2月10日

[Namazu-devel-ja 1489] Encode::Guess が複数報告する際への対応 Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

臼田です

On 2006/08/28, at 15:35, Tadamasa Teranishi wrote:
>
>> で、Encode::Guess で複数返した場合には、namazu 側
>> でやっている
>> みたいに、候補のエンコーディングで変換した後の文字数を比較して
>> 判定すれば、大丈夫なのではないでしょうか。*1

>
> という判別用テスト用プログラムです。たぶん、この程度で使い物に
> なるはず。
> おそらく複数候補としてあげられるのは utf8, shiftjis, euc-jp
> だろうと思うので、とりあえずこの3つだけチェックしていま
> す。

Namazu-devel-ja#1183,1184,1185,1186 で提供していただいていた
判別ルーチンを HEAD の pl/codeconv.pl に入れました。
ja-namazu-5 が PASS するようになりました。

臼田幸生

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2007年2月10日 15:01
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/54094
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。