2008年2月16日

[SpamAssassin-JP 646] Re:日本語テストルールの自動作成スクリプト

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

On 02/16/2008 03:45 PM, Takashi Takizawa wrote:
> 日本語のテストルールの自動作成スクリプトと作成したルールを更新しました。
> 以下の場所に置いています。
> http://spamassassin.jp/download/experimental/taki/

>
> hamコレクションによる補正を加えてみました。
> ビジネスメール4000通ほど加えてみると結構いい感じに補正されています。

さらに、変更を加えたものをアップロードしました。
http://spamassassin.jp/download/experimental/taki/

バージョン0.3となっています。
変更点は次の通りです。
- hamメールによる補正の重み付けを3倍とした。
- 最大スコアと判定する順位を上位から5%とした。
一つめの変更はfalse positiveを減らすための手段です。
二つめの変更は出現頻度が高いトークンの数が少ないため、そのトークンに最大
スコアを合わせると全体的にスコアが低すぎるようになってしまっているので、
出現頻度が上位から5%の順番であるトークンのスコアを最大スコアとするように
しました。

ここら辺の数値は運用をしてみて再調整します。

--
滝澤 隆史 (Takashi Takizawa)
株式会社サードウェア 開発部
ThirdWare Co., Ltd.
http://www.3ware.co.jp/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2008年2月16日 19:12
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/69812
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。