2008年2月29日

[SpamAssassin-JP 671] Re:日本語テストルールの自動作成スクリプト

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
沖です。

 引き続き、0.4 での結果です。そろそろ、この辺で 0.4 の検証は
変な事が無い限りやめとこうと思います(皆さんも、飽きてきた
ころでしょうし…)。

ローカルのビジネス・レター(0.2でメタメタだったやつ)
------------------------------------------------------------------
BODY_JA_PUROFU /プロフ/ +0.2 <プロフィール>
BODY_JA_PUROFUIRU /プロフィール/ +0.3 <プロフィール>
BODY_JA_SHASHIN /写真/ +0.3 航空写真 オルソ写真
BODY_JA_TOKO /投稿/ +0.6 会員からの投稿
BODY_JA_ZEHI /是非/ +0.2 是非多くの皆様のご参加
------------------------------------------------------------------
総合 4.6

VAIO E-news
------------------------------------------------------------------
BODY_JA_EIZO /映像/ +0.2 での映像編集に
BODY_JA_ICHININ /一人/ +0.2 第一人者の著者
------------------------------------------------------------------
総合 -3.1

DOS/V パラダイス DM
------------------------------------------------------------------
BODY_JA_EIZO /映像/ +0.2 3DCG・映像・音楽・写真
BODY_JA_FURENDO /フレンド/ +0.2 ねじまきくんのガールフレンド
BODY_JA_KANZEN /完全/ +0.4 ハイビジョン画質を完全再現
BODY_JA_KURABU /クラブ/ +0.2 DJクラブ
BODY_JA_SHASHIN /写真/ +0.2 3DCG・映像・音楽・写真
------------------------------------------------------------------
総合 1.5

 ふと、総合スコアにバラつきがあるなぁーと、思って
よく考えてみると、もとものビジネス・レターの類は、どうしても
スパムっぽいから、whitelist_from_rcvd を設定して、スパムに
ならないよう調整をしているものが多いからでした…。

 0.4では、ワードの組み合わせを試みているように
もっと、それっぽいフレーズが抽出できるようになれば、
最高かなー?案外 N-gram (4-8) で同じ事をすると、
もっと特徴を抽出できるのかも…なんて妄想してます。

 0.4 は完成度としては、高いんじゃないでしょうか?


--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2008年2月29日 11:00
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/70485
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。