2006年10月31日

[SpamAssassin-JP 442] Re:ルールセットのベイジアンフィルタでの学習(Re: ルールセットについて)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
舘山です

私が考えているのは 単語を抜き出していってスパムに使われる単語の
傾向を調べて行き、これをルールセットに反映させたいのです。

現在のルールセットでもある程度ははじけますが、スパムの手口も成長すること

から新たな単語の組み合わせをルールセットに反映する形で拡張できないかなと
思っている訳です。

一つ一つの単語ではスパムとして判断するのは難しいわけですが、
「あなた」「待ってる」「どんな子か」「日記」「写真」
なんて5つぐらいの単語が一つのメールに入っていればスパムとするなどの判断
に使えるかな?ということでポイントに生かしたいということなんです。
=ベイジアンフィルタなんですがSpamAssassinではこの辺すでにハッシュ化され
てしまっていてどの単語で重み付けされているかは分からないのが残念。

単語を抜き出すという点ではPOPFile ( http://popfile.sourceforge.net/ )
の考えも組み合わさったという感じです。(POPFileではPOP3のフィルターとし
て動作するわけですが、改造出来そうな感じです。でもどうせならもう少し特化
したものが作りたい)

--
彡彡从 たてやんっす
d□/□-b <tateyan@xxxxx>
ヽ"ー"丿

Key fingerprint = 5D56 8EA3 B9FE A721 4866 FB4A 0041 672C 08DD C33A


--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年10月31日 22:17
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48521
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。