2007年7月 4日

[SpamAssassin-JP 568] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **

沖です。

> 日本語の分かち書きって本当に必要なんでしょうか?
> 私のところではスパムフィルタはspamassassinだけですが
> 日本語の分かち書きは効果が実感できなかったので今は

> 分かち書きそのものを止めてます。
> TLECさんのところのルールが8割、独自ルール2割で作成して
> いますが、これだけで日本語の迷惑メールの誤仕分けはほぼ
> 0%です。

 私は、違った意見を持ってますので反論させてください。

 これは、松田さんのルール・メンテナンスが優れているから
というのは認めないわけにはいかないでしょう。でも、ルール
の更新を怠ると、スパムメールがあっという間に増殖していく
と思います。
 私のところの環境では日本語パッチをあてた(SimpleJA版)に
変えてからはルールのメンテナンスをほとんどしなくても、
スパムメールの分離は、ほぼ99パーセントできてます。

 そういう意味でも、ベイジアンの効果は大きいです。日本語パッチ
無しの組み合わせは、日本語メールに関してベイジアンの効果を
期待できません(と、言い切っちゃう)。そこを乗り越えた上で
ルールを作ってる TLEC さんは、すごいです。


> ベイジアン云々以前の段階で今の日本語の迷惑メールはヘタレだな
> という感じです。(英語の悪質迷惑メールは手に負えませんが)
> 分かち書きをすることでベイジアンフィルタにどのくらい良い
> 効果をもたらすというデータがあれば考え直すかもしれませんが、
> そういうデータはどなたか持ってませんかね。

 ま、ヘタレですね。この点に関しては同意します。なので、
極論すれば、分かち書きが無くても分離できるほど、ヘタレ
なので、現時点では、分かち書きはいらない・・・。って、
結論に導き出せるのも同意できます。


> 逆にベイジアンフィルタに変化がないなら分かち書きは余計な
> 工程を増やすだけ無駄ということになります。
> あと、下手にぶつ切りされて自分の作ったルールにひっかから
> なくて困ったりしません?

 ただし、日本語対応ベイジアンを使っていると、スパム&ハム
の分類は、ほぼ間違いなく行われてます
(見事に BAYES_00 - BAYES_99 と分かれていると思います)
ですので、無駄という事は決してないです。

PS:最近、PDF スパムが出現したのかな?何通か抜けてるよ・・・。

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 4日 10:09
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61086
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。