2006年8月28日

[Namazu-devel-ja 1182] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

At Mon, 28 Aug 2006 11:56:31 +0900,
Tadamasa Teranishi wrote:
> Encode::Guess だと複数返すことがあるのですが、その時の処理ができて
> いないだけなのでは?

詳細については私の方ではまだ確認していません。

> LIST OF LANGUAGES currently supported に UTF-8 とか、ISO-2022-JP

> とかないので、仕方ないですけど。これはデータベースに UTF-8 のデータ
> を入れていないだけなのでしょうか?

TextCatのデモサイトでは、あまりデータベースが充実してないようです。
ISO-2002に関してはエスケープシーケンスもからむので、この手法にはちょっ
と馴染まないかもしれません。ある程度の適用はできると思いますけど。

> それと大きなデータベースが必要になりはしないかと心配します。

libTextCat 2.0付属の日本語データベースはEUC-JP, SJIS共に3Kb少々といっ
たところです。とはいえ誤認も結構あるので、もう少し充実させたほうがいい
かもしれません。
libTextCatはcorpusからデータベースを作るツールが付属しているので、カ
スタマイズ自体は容易にできます。
--
野首 貴嗣
E-mail: knok@xxxxx
knok@xxxxx / knok@xxxxx
_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年8月28日 13:05
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/44896
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。