2008年2月13日

[SpamAssassin-JP 644] Re:日本語テストルールの自動作成スクリプト

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **

沖です。

> ** SpamAssassin メーリ
> 日本語のテストルールの自動作成スクリプトを作ってみました。
> 以下の場所に置きました。

> http://spamassassin.jp/download/experimental/taki/

 さっそく、拝見しました。romanize_token がカッチョいいですネ…
って、変なところに関心して(^^;

> しかし、spamコレクションは人によってそれほど傾向の違いは出てきませんが、
> hamコレクションは人によって傾向が異なると思われます。
> この点が難しいです。
>
> ここら辺について良いアイデアや意見などがありましたら、返事をください。
>

 これだけ炙り出せれば、十分有難いです。

 でも、いくらかのスパムと突き合わして見ましたが、マッチしない
ものは、意外にマッチしないです。

 有効に活用するためにパッと思いついた公式は

N = Count( マッチしたルールの数 )

if( N > 3 ) {
1.618 ^ N
# 洒落て黄金比を使ってみたけど過激なら
1.1 ^ N
# ありふれた言葉も結構あるので、ここら辺は ham を間引いて
# べき乗する値を上げるか、間引かないで下げるか…
} else {
0.1 * N
}
こんなルールって記述できるんだろうか...です。
あまり、やり過ぎるとベイジアンとどこが違うねん…って
突っ込まれそう。

> まだ、実験的な状態なので、実用環境で使うには問題があります。
 これですが、スコアを数桁繰り下げて実運用してみるという
手もあるかも? 0.0001 に設定すれば、ヘッダの小数点2桁以下を
見れば、ほとんど影響無しに結果を予想できそう。

時間が取れた時に、ツールを使って実際のスパム・ハムのメールで、
比較してみようと思います。


--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2008年2月13日 18:18
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/69704
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。