2006年8月28日

[Namazu-devel-ja 1180] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

対応ありがとうございます。

At Thu, 24 Aug 2006 00:24:20 +0900,
Yukio USUDA wrote:
> 後者は Encode::GUESS が tests/data/ja-wakati/builtin-m-
> test.txt の文字コード判定
> に失敗していることが原因のようですが、いまのところ対処方法を思い
> つきません。


とりあえずは#18としてTracに登録しておきました。

Encode::GUESSで失敗するのはある意味Perl側の問題ですから、難しいです
ね...

最近はTextCatというn-gramのデータベースに基づきエンコーディング、言
語の判定をする手法があり、その実装も何種類かあるようなので、それが利用
できないかと考えています。

TextCat
http://grid.let.rug.nl/~vannoord/TextCat/Demo/textcat.html

実装の一つ libTextCat
http://software.wise-guys.nl/libtextcat/

--
野首 貴嗣
E-mail: knok@xxxxx
knok@xxxxx / knok@xxxxx

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年8月28日 11:14
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/44890
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。