2007年7月 4日

[SpamAssassin-JP 572] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
お久しぶりの久保です。

> 分かち書きをすることでベイジアンフィルタにどのくらい良い
> 効果をもたらすというデータがあれば考え直すかもしれませんが、
> そういうデータはどなたか持ってませんかね。

だいぶ前のデータになりますが、

http://www.3ware.co.jp/files/osc2006do-SpamAssassin.pdf

の13ページ目に私の実験データを掲載しています。

- わかち書きと日本語パッチを当てたSA
- オリジナルのSA

にほぼ同程度のBayesフィルタ学習を行わせた後、サンプルメール(spamとham)を
食わせてBAYES判定値を調べた、という実験です。

[SpamAssassin-JP 571]でさとうさんが書いておられますが、私の実験結果は

>  自分は、日本語分かち書き対応以降、検出率が上がったと言うよりも、誤検出
> 率が下がったなあ、と思っています。感覚的なものですが。

と一致しています。

わかち書きの有無にかかわらず、スパムメールのBayesスコアは99%などとあま
り変わらない。しかし、非スパム(ham)のBayesスコアが大きく低下する、という
結果が得られています。

デフォルトのSAのスコアだと、BAYES50超はプラスのスコア、50未満はマイナス
のスコアですから、この差は非常に大きいと思います。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
★ ブログを始めました http://blogs.itmedia.co.jp/ossway/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 4日 11:13
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61095
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。