2007年7月 4日

[SpamAssassin-JP 565] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

On Tue, Jul 03, 2007 at 11:24:02PM +0900,
SATOH Kiyoshi wrote:

>  N-gramでの区切りは万能(言語に依存しない)けども、辞書がでっかくなる

> (=それだけ重くなる)という問題点があると聞いたことあるんですが、そのへん
> はそんなに問題にはならないのでしょうか。
>
>  そういった問題ないのだとすると、N-gramでの分かち書きであれば、言語依存
> しないから、パッチを取り込んでもらう際にだいぶ有利になると思うので。

日本語対応パッチを作っているときに、N-gramも検討したのですが、データ量が
大きくなりすぎることが気になって採用しませんでした。
ベイズの学習データの制限値を大きくしたり、N-gram用のベイズの学習データを
従来の学習データとは別に管理したりすれば問題ないのかも知れませんが。

でも、中国語のベイズ学習にも対応しようとするとN-gramを採用するしかないん
ですよね。


--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 4日 00:03
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61043
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。