2007年7月 4日

[SpamAssassin-JP 569] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
さとうです。

On Wed, 04 Jul 2007 00:42:52 +0900 (JST)
Eisaku YAMAGUCHI <eisaku@xxxxx> wrote:
Subject: [SpamAssassin-JP 567] Re: 分かち書き手法で精度が変らないというレポート

> >  N-gramでの区切りは万能(言語に依存しない)けども、辞書がでっかくなる
> > (=それだけ重くなる)という問題点があると聞いたことあるんですが、そのへん
> > はそんなに問題にはならないのでしょうか。
> 単純に N-gram にすると大きくなります.
> +αの分というのは,例えば「漢字の連続」,「片仮名の連続」,「数字の
> 連続」などで,長い語を擬似的に切り出す tokenizer の工夫もあります.

 あ、そのαが元ネタの話ですね。んで、そのαだけで十分な結果が出た、と。

> で,基本的なベイジアンフィルタであれば,形態素解析等を行う方がコストが
> 高いというのが今のところの経験値です.
…略
> SpamAssassin は,トークン化した後の処理がより複雑ですから,
> 処理コストの重みをある程度数値化しないと,より正確な予測は難しいと
> 思いますけれど.

 なるほど。「経験値」と書かれているように、このへんは実際に動かしてみて
試さないとわからん世界、ということですよね。

> 単純な N-gram 自体はそんなに難しい訳ではないので,先ず置き換えて
> 比較でも良いのかもしれません.

 ちなみに、どっかにPerlで書いてあって日本語もちゃんと処理してくれるN-gram
分割ルーチンって転がってますか?
#他にも作りたいことがスタックされてってて、自分でコード書いて試すにはだ
#いぶ先になっちゃいそうなので。

--
SATOH Kiyoshi <satoh@xxxxx> http://d.hatena.ne.jp/stealthinu/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 4日 10:35
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61089
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。