2008年2月12日

[SpamAssassin-JP 643]日本語テストルールの自動作成スクリプト

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

日本語のテストルールの自動作成スクリプトを作ってみました。
以下の場所に置きました。
http://spamassassin.jp/download/experimental/taki/
ついでに、私のスパムコレクションから2万通くらいを通して作成した

ルールファイルも置いておきました。spamらしい単語が並んでいます。

まだ、実験的な状態なので、実用環境で使うには問題があります。
ルールファイルを見てもらえばわかりますが、「メール」が一番出現頻度が
多いです。出会い系などでよく出てくる単語ではありますが、通常のメール
でも出てくる単語なので明らかに問題です。
そのため、ホワイトリスト的なものを整備するか、hamコレクションから
メールを投入して差し引きするかする必要があります。
しかし、spamコレクションは人によってそれほど傾向の違いは出てきませんが、
hamコレクションは人によって傾向が異なると思われます。
この点が難しいです。

ここら辺について良いアイデアや意見などがありましたら、返事をください。

--
滝澤 隆史 (Takashi Takizawa)
株式会社サードウェア 開発部
ThirdWare Co., Ltd.
http://www.3ware.co.jp/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2008年2月12日 19:15
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/69703
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。