2008年2月18日

[SpamAssassin-JP 647] Re:日本語テストルールの自動作成スクリプト

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **

沖です。

>
> 実行した結果として興味深いのはspamメールは語彙数が少ないというのが明確に
> わかりました。spamメールは通常のメールの約半分の語彙数しかないです。

> 次のものはスクリプトの実行時に報告された情報です。
> The spam words:
> The number of Japanese words : 1447778
> The number of uniq words : 44771
> The ham words:
> The number of Japanese words : 1566282
> The number of uniq words : 102275
>
 ああ、なるほど…、意外にマッチしないのは語彙数が
少なかったからかもしれないですね…。にしても、時間がないと言いながら
滝澤さんは、パワフルですねー(あやかりたい…)

> > 時間が取れた時に、ツールを使って実際のスパム・ハムのメールで、
> > 比較してみようと思います。
>
> ルールファイルを更新しましたので、沖さんのところでも試してみていただけると
> ありがたいです。
> 積極的にspamメールを検出しようとするのであれば、スコアを底上げするか、
> 2倍くらいにするとちょうど良いのかもしれません。
> 私もこれから自宅のマシンの実運用環境で継続的評価をして、問題がなければ、
> スコアを少し上げるようにしてみます。
>
 了解しました。とりあえず、ルールだけでも試してみる事にします。
ややしばらくかかるかもしれないけれど…orz


--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2008年2月18日 16:41
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/69936
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。