2006年5月 1日

[SpamAssassin-JP 228] Re:SpamAssassin-3.1.1日本語対応パッチ(案、その2) - 動作報告

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

滝澤さんのパッチをSA 3.1.1に適用して試してみました。

ルールは以前私が公開したものの最新版を書き換え(bodyをnbodyに、subjectの
テストは:utf8スイッチを追加など)、最近のスパム数十通を通してみました。


MeCabとKakasiによるわかち書きの違いによってルールを修正する必要があるか
もしれませんが、うまく動いているようです。すばらしい!

質問とコメントがあるので、下記のメモ書きにコメントさせていただきます。

> - ルールnbodyを追加した。
> 例)
> nbody NBODY_DEAI /出会い/
> describe NBODY_DEAI deai
> score NBODY_DEAI 1.0

思い付きですが、nbodyの正規表現部分を「正しい」わかち書きに書き換えてく
れるユーティリティがあったらいいですね。

# 「正しい」とは、MeCabを使うときはMeCabの、Kakasiを使うときはKakasiの辞
# 書にもとづいた結果のことです。

spamassassin --lintコマンドの一部として、「間違い」を指摘してくれる、と
いうのでもいいかもしれません。

> - ヘッダのテストにおいて":utf8"を付けると、normalizeしたヘッダとのルールの
> 比較を行うようにした。
> 例)
> header SUBJECT_MISHODAKU_UTF8 Subject:utf8 =~ /未承諾広告/

これですが、normalizeした結果での比較ということでしょうか。normalize後
tokenizeした結果とのマッチとどっちがいいのか、ちょっと悩み中。

> - 分かち書きプラグインのパスを変更した。
> 後で宣言した方が有効になる。
> 例) v310.pre あるいは testplugin.cf に以下のどちらかを記述する。
> loadplugin Mail::SpamAssassin::Plugin::Tokenizer::TokenizerKakasi
> loadplugin Mail::SpamAssassin::Plugin::Tokenizer::TokenizerMeCab

モジュールのファイル名はKakasi.pm、MeCab.pmのようですから、

loadplugin Mail::SpamAssassin::Plugin::Tokenizer::Kakasi
loadplugin Mail::SpamAssassin::Plugin::Tokenizer::MeCab

が正しいのではないでしょうか。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
★ ブログを始めました http://blogs.itmedia.co.jp/ossway/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年5月 1日 00:17
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/39886
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。