2007年7月 4日

[SpamAssassin-JP 576]PDF spam (was Re: Re: 分かち書き手法で精度が変らないというレポート)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
こんにちは。松田陽一@三鷹です。

# すっかり話題が進んでしまって浦島状態です(汗)

From: OKI Miyuki <oki@xxxxx>
Subject: [SpamAssassin-JP 568] Re: 分かち書き手法で精度が変らないというレポート

Date: Wed, 04 Jul 2007 10:09:46 +0900

> PS:最近、PDF スパムが出現したのかな?何通か抜けてるよ・・・。

ごめんなさい。
拙作ルールですが、 gif spam 及び pdf spam については、全く手を
打っていません。
故に、英語 spam として取り立てて特徴のないものはそのまま SA を
すり抜けてしまいます。

「じゃあお前はどうしているんだ」と思われることでしょう。

私の手元の環境では、 SA の後に bsfilter を通しています。

何でこんなことをしているのかと言いますと、 SA のベイズエンジン
を全面的に信用していないからです。
あまり一つのルールに依存し過ぎるのは危険だと判断した結果です。
私はベイズエンジンも SA におけるルールの一つと見て、なるべく他
のルールとの meta ルールでスコアを上げて、安全を確保しようとし
ています。

とは言えども、この ML には bsfilter の関係者の方もいるようで、
ちょっと言い難いのですが、少なくとも私の手元で使用する限りにお
いては、 bsfilter の日本語 spam に対する精度は、正直あまり宜し
くありません。

そんな訳でして、現状の私の環境は、

(1) SA で日本語 spam の殆ど全部と、外国語 spam の9割を除去し、
(2) SA が取りこぼした外国語 spam を bsfilter で除去

という塩梅になっています。
したがいまして、 SA をすり抜けた日本語 spam は、かなりの高確率
で被弾してしまいます。
滅多にないですけど。
--
日本語spam展示博覧会開催中
http://www.flcl.org/~yoh/spam/jp/
松田 陽一(yoh)
mailto:yoh@xxxxx
http://www.flcl.org/~yoh/diary/

以下、蛇足。

> > 日本語の分かち書きって本当に必要なんでしょうか?
> > 私のところではスパムフィルタはspamassassinだけですが
> > 日本語の分かち書きは効果が実感できなかったので今は
> > 分かち書きそのものを止めてます。
> > TLECさんのところのルールが8割、独自ルール2割で作成して
> > いますが、これだけで日本語の迷惑メールの誤仕分けはほぼ
> > 0%です。
>
>  私は、違った意見を持ってますので反論させてください。
>
>  これは、松田さんのルール・メンテナンスが優れているから
> というのは認めないわけにはいかないでしょう。

お褒めに与り光栄です。

日本語 spam に注力しているのは、外国語 spam と比べて、被弾した
時の不快感と影響の大きさを鑑みた結果です。

私は英語はすらすら読めないので、普通に読める日本語の spam が来
ると、中身が何書いてるかわかんない英語 spam よりもやっぱりイラッ
とします。

> でも、ルール
> の更新を怠ると、スパムメールがあっという間に増殖していく
> と思います。

おっしゃる通りです。
アジア圏の、全く見聞きもしなかった ISP から来ることがしょっちゅ
うあります。
また、各 ISP に対する IP アドレスの付与が進んでおり、ここ最近
は新たな IP アドレスから被弾することが増えています。

> > ベイジアン云々以前の段階で今の日本語の迷惑メールはヘタレだな
> > という感じです。(英語の悪質迷惑メールは手に負えませんが)
> > 分かち書きをすることでベイジアンフィルタにどのくらい良い
> > 効果をもたらすというデータがあれば考え直すかもしれませんが、
> > そういうデータはどなたか持ってませんかね。
>
>  ま、ヘタレですね。この点に関しては同意します。なので、
> 極論すれば、分かち書きが無くても分離できるほど、ヘタレ
> なので、現時点では、分かち書きはいらない・・・。って、
> 結論に導き出せるのも同意できます。

恐らく、日本語 spammer は、外国と違って日本国内では環境構築の
難しさからあまり普及していない SA とのいたちごっこをするよりも、
数多くの spam をバラ撒いた方が、トータルコストとして見合ってい
ると判断したのではないかと想像します。
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 4日 23:18
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61138
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。