2006年11月 1日

[SpamAssassin-JP 444] Re:ルールセットのベイジアンフィルタでの学習(Re: ルールセットについて)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
さとうです。

On Tue, 31 Oct 2006 22:17:27 +0900
tateyan <tateyan@xxxxx> wrote:
Subject: [SpamAssassin-JP 442] Re: ルールセットのベイジアンフィルタでの学習(Re: ルールセットについて)

> 一つ一つの単語ではスパムとして判断するのは難しいわけですが、
> 「あなた」「待ってる」「どんな子か」「日記」「写真」
> なんて5つぐらいの単語が一つのメールに入っていればスパムとするなどの判断
> に使えるかな?ということでポイントに生かしたいということなんです。

 特徴的な単語を複合的に判断させるルールセットを、ベイジアンフィルタを使っ
て自動抽出とポイント付けする、という感じですね。
 これは443で久保さんが書かれたアイデアと同じものになりますね。

> 単語を抜き出すという点ではPOPFile ( http://popfile.sourceforge.net/ )
> の考えも組み合わさったという感じです。(POPFileではPOP3のフィルターとし

 確かに、ベイジアンフィルタのデータベースがSAのルールセットと同義と考え
れば、POPFileのベイジアンフィルタと同じアイデアになると思います。
 複合条件をベイジアンフィルタで自動学習しているはずですので。

 そうなると逆に独自のものを作るのではなく、POPFileのエンジンをSAのベイ
ジアンフィルタと置き換える、もしくはプラグインで組み込んで、そっちを選択
できるようにする、という構成にするのが良いのかな、と思いました。
 舘山さんが考えられているのもそういうイメージでしょうか。


--
佐藤 潔 (SATOH Kiyoshi) <satoh@xxxxx> http://d.hatena.ne.jp/stealthinu/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年11月 1日 00:39
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48530
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。