2008年2月23日

[SpamAssassin-JP 648] Re:日本語テストルールの自動作成スクリプト

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

日本語テストルールの自動作成スクリプトのバージョン0.4をアップロードしました。
http://spamassassin.jp/download/experimental/taki/

変更点は次の通りです。

- スクリプトを機能毎に二つに分けた。
- 本文が同一であるメールを除外するようにした。
- hamメールの重み付けを10倍に変更した。
- 生成するスコアの最大値を0.6に変更した。
- 生成するスコアの最小値を0.2に変更した。

一つ目の変更点ではトークナイザーとテスト生成スクリプトに分けました。
- sa-tokenizer.pl
- sa-ja-testmaker.pl
二つ目の変更点では同一の文面のスパムメールが大量に来た場合に、そのメールに
登場するトークンのスコアが不本意に高くなりがちなので、この処理を加えました。
三つ目の変更点はfalse positiveを確実に減らすための処理です。
これにより、安全に生成するスコアの底上げ(四つ目と五つ目の変更)を行うことが
できました。

同時に、このスクリプトを使って生成したテストルールも同じ場所に置きました。
hamメールコレクションとしてビジネスメールの他にメールマガジンも投入したので
以前より精度が上がっています。
自宅の実運用環境で使っていますが、このテストルールだけで日本語のスパムメール
に関しては1〜3くらいのスコアがつきます。

課題はhamメールの安定した収集方法です。
hamメールがたくさん収集できればスコアの底上げをもう少しできると思います。
とりあえず、ビジネス系のメールマガジンを30個くらい購読し始めました。

--
滝澤 隆史 (Takashi Takizawa)
株式会社サードウェア 開発部
ThirdWare Co., Ltd.
http://www.3ware.co.jp/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2008年2月23日 18:05
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/70243
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。