2006年12月22日

[SpamAssassin-JP 502] Re:ユーザ会ルール

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
こんにちは。松田陽一@三鷹です。

From: OKI Miyuki <oki@xxxxx>
Subject: [SpamAssassin-JP 501] Re: ユーザ会ルール
Date: Thu, 21 Dec 2006 13:37:04 +0900

> ** SpamAssassin メーリングリスト **
> ** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
>
>  沖です。
>
>  松田さん、いつもお世話になってます。
>
> > >  スコア高すぎるとおっしゃいますが、違ったメールアドレスの
> > > ように見せかけるという、正に
> > > From: "PatwaHolbrookunjb@xxxxx" <LavernelxSylvesterlcig@xxxxx>
> > > なんで、案外、From:raw とすれば核心を突いているルールなんでは
> > > という、忌々しさを感じました…(爆)。
> >
> > そういう、 spam にも ham にも出現する可能性があるルールは、無闇にスコアを
> > 上げるのではなく、当該ルールに引っかかる spam の、他の特徴との meta を検討
> > すべきと思います。
>
> ルールの部分は、正規表現とかが複雑に入り混じって、良くわからない
> ながらも、のほほーんと眺める事が多いのですが、松田さんのルールには
> 複合ルールに高スコアを付加するってパターンがよく見受けられますもんね…。

はい。
積極的にそうしています。

>  これ、松田さんの長年培ってきたところから出るノウハウですよね?

長年っつってもたかだか4年程度です。
ま、それは置いといて。

spam の特徴は、どれを取っても「絶対これはspam」と言い切れるものは
なかなかありません。
それら特徴の一つ一つは、「spamの可能性」です。
SA はその「可能性」を数値にして、累積加算しています。

けれども、累積加算するよりも、複数の条件を備えるものはより可能性が
高いことに気が付きました。

NGワードなどはその典型例です。

例えば、私が友人と下ネタをメイルでやり取りしたとします。
猥褻な言葉が本文中に多数現れますが、これを spam と見做すのは早計で
す。

一方、 spam 発信者の IP アドレスを DNSBL に登録し、これを MTA で弾
き落す、というやり方が行われていました。
これは先頃の ORDB 閉鎖でご承知の通り、弊害が多すぎます。

しからば、 NG ワードを含むメイルが DNSBL に登録された IP アドレス
のホストから来れば、それは普通のメイルと比べて、より spam の可能性
が高いものと判断できます。

でも、 IP アドレスだけで判断するのも早計です。
その IP アドレスが動的 IP で、既に spammer は他の IP に移っていた
ら、その後に当該 IP アドレスを割り当てられたマシンのユーザは、とん
だとばっちりを受けることになるでしょう。

それではどうすればよいか。
もっと他の特徴を沢山探して、それら特徴の AND 条件でスコアを上げれ
ば、より確実性が増す。
そう考えるに至りました。

また、単独で高めのスコアを設定したルールで誤認識するケースが多々見
受けられ、それら誤認識をなくすためにスコアを低めに設定するようになっ
て、自然と meta ルールを多用するようになりました。
--
日本語spam展示博覧会開催中
http://www.flcl.org/~yoh/spam/jp/
松田 陽一(yoh)
mailto:yoh@xxxxx
http://www.flcl.org/~yoh/diary/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年12月22日 00:55
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/51634
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。