2006年10月31日

[SpamAssassin-JP 440]ルールセットのベイジアンフィルタでの学習(Re: ルールセットについて)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
さとうです。

On Mon, 30 Oct 2006 22:02:22 +0900
Motoharu Kubo <mkubo@xxxxx> wrote:
Subject: [SpamAssassin-JP 433] Re: スパム対策記事への紹介について

> > のグラフがまさにそれにあたり、非常に説得力がありますので、こちらのグラフ
> > を説明に利用させていただけませんでしょうか。
> はい、引用していただくことはまったく問題ありません。どうぞお使いください。

 ありがとうございます。


On Tue, 31 Oct 2006 01:08:28 +0900
Motoharu Kubo <mkubo@xxxxx> wrote:
Subject: [SpamAssassin-JP 437] ルールセットについて

> (3) サンプリングなどの手法
> さとうさんの単語の拾い出しのアイデアは面白いと思いますし、同様のことを私
> もときどきつらつらと考えています。でも、単語にばらしてしまったら、かえっ
> て特徴がわかりづらくなるのかな、という気もしています。

 単語にばらす、というイメージがちょっとわからなかったのですが、どんな感
じのイメージでしょうか。


 自分の考えてるイメージを具体例を書いて説明してみます。
 今日来てたスパムを例にしてみます。

…略
From: suki_suki_daisuki_xxx@xxxxx
Message-ID: 20061031125156
X-Spam-Report:
* -0.1 CONTENT_TYPE_PRESENT exists:Content-Type
* 0.0 NO_REAL_NAME From: does not include a real name
* 1.5 SHIFT_JIS2 Content-Type: text/plain; charset="SHIFT_JIS"
* 2.0 MATCH_S25R match S25R FQDN pattern
* 2.0 SJIS_C BODY: SHIFT_JIS message body
* 4.5 BAYES_99 BODY: Bayesian spam probability is 99 to 100%
* [score: 0.9998]
* 1.0 SHIFT_JIS1 FULL: charset="shift_jis"
* 0.5 RCVD_IN_CHINA RBL: Received via a China IP address in china.blackholes.us
* [220.194.46.187 listed in china.blackholes.us]
* 2.0 RCVD_IN_SHORT_RBL_JP RBL: Received via a relay in
…略

好きです。
大好きです。
私が誰か、分かりますか?分からなくても…ある程度限定されるよね?
あなたのアドレスを知ってるんだし。
…略

 というように、SpamAssassinを通った後のメールにルールと点数が付けられま
すが、これをヘッダの内容込みで再度ベイジアンフィルタに通すと、他の「分かりますか」
とか「限定」とかの単語の他に「BAYES_99」や「SJIS_C」といった単語も学
習されるのではないかと思います。
 そうするとルールセット自体を、普通の単語と同列に、ベイジアンフィルタの
項目の一つとして学習されるのではないかと。

 ルールセットだけを対象にして、たとえばこの例では

CONTENT_TYPE_PRESENT
NO_REAL_NAME
SHIFT_JIS2
MATCH_S25R
SJIS_C
BAYES_99
SHIFT_JIS1
RCVD_IN_CHINA
RCVD_IN_SHORT_RBL_JP

だけを、もう一つベイジアンフィルタ用DBを用意しておき、学習させるという方
法でも良いと思います。

 最終的に、そのルールセットで学習したベイジアンフィルタのポイントで、ス
パムを判定するシステムにするというイメージです。
 なので、ルールセットはマッチングルールを書くだけで、ポイントは指定しな
い(指定してあっても、それは初期値となる)という感じです。


--
佐藤 潔 (SATOH Kiyoshi) <satoh@xxxxx> http://d.hatena.ne.jp/stealthinu/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年10月31日 16:53
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48611
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。