2006年10月31日

[SpamAssassin-JP 437]ルールセットについて

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

「日本語スパム対応ルールセット」のユーザ会バージョンを作るのをめざしてみ
よう、という気運が出てきました。研究課題もあるし、いろいろな調整事項もあ
りますが、持続力のあるカタチで進めたいと思います。

# IPAや他コミュの人からも期待のおことばをいただいています。

(1) しきい値

Okiさんのまとめ(#429)にもありますが、国際標準の5点に合わせるべきだと思
います。

同様に、オリジナルのルールセットに入っているルールのデフォルトスコアの調
整は、日本語コードの特性などにもとづくものを除いて、変えずに対応すべきだ
ろうと思います。

(2) ファイル分割

カテゴリを決めていくつかに分けるのは賛成なのですが、どんなカテゴリ分けが
最適かが見えるまでの間は、1つのファイルで進める方が始めやすいような気が
します。

(3) サンプリングなどの手法

スパムの内容を分析する必要がありますが、コミュニケーション方法は要注意で
すね:-) そういった用語を列挙したメールを流したらそれがスパムと判断されか
ねないから。

拙作のサンプルルールファイルは、すでにある程度の「スパム用語」をピック
アップしてあります。これをベースに、新しい用語などをWikiかブログなどのメ
ディアで話し合ってみるのが現実的に思います。

さとうさんの単語の拾い出しのアイデアは面白いと思いますし、同様のことを私
もときどきつらつらと考えています。でも、単語にばらしてしまったら、かえっ
て特徴がわかりづらくなるのかな、という気もしています。

SA開発チームやSAREの各ルールセットのメンテナがどのように作業しているのか
を調べてみる必要があるかもしれないですね。

(4) スパムサンプルの収集、テスト環境

私のところには多数のスパムが来ていますが、それでも偏りはあるようです。こ
れは他のメンバーも同じじゃないかと思います。

ルールの新バージョンの案ができたら、それをテストする環境が必要かもしれま
せん。もちろん、テスト方法自体も検討が必要だろうと思います。

したがって、スパムのサンプルを集めて重複を省いて一種のデータベースに蓄え
る仕掛けやテスト環境のことも、一応検討課題になってくると思います。

もっとも、先にこれらを整備するというのも無理がありますから、実際にルール
セットをまとめながら並行して考えていく、ということでかまわないんじゃない
でしょうか。


--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0816 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
★ ブログを始めました http://blogs.itmedia.co.jp/ossway/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年10月31日 01:08
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48551
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。