2006年7月29日

[SpamAssassin-JP 321] Re:SpamAssassin-3.1.4日本語対応パッチ(案、その5)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

> SpamAssassin-3.1.4に対する日本語対応パッチ(案、その5)を公開しました。
> http://www.emaillab.org/spamassassin/

早速のご対応、ありがとうございます。ウチでも動作を確認しました。今のとこ

ろ問題はないようです。

> 注意事項:
>  ライセンスの関係上、わかち書きプラグインとしてKAKASIを使うのをやめました。
>  また、MeCabのPerlバインディングとしてmecab-perlを使うのをやめ、Text::MeCab
>  を使うようにしました。

パフォーマンス、UTF-8対応などの観点でも、これでいいんじゃないかと思います。

ちょっと話題が外れるかもしれませんが、辞書にもとづかないわかち書き、たと
えば字種にもとづくわかち書きでもかなり有効性があるのかもしれない、などと
最近考えたりしています。

MeCabを使って「辞書を引かない」設定で動かす例が次のURLにあります。
http://chasen.org/~taku/blog/archives/2006/05/mecab_20.html

「スパムかどうかの判断基準をBayesルーチンに与える」というのが我々の目的
ですから、それに最適なトークナイズ手法を見出せれば、なにも辞書にもとづく
手法に限らずに利用すればいいのかな、という発想です。

現に、オリジナルのSpamAssassinでもURLのような文字列はトークナイズしない
ようにしていますし。

# 瀧沢さんのパッチでchar.defを書き換えているのも、これと同様の趣旨にもと
# づくことです。

> 文書も少しだけ書いてみました。
> http://www.emaillab.org/spamassassin/patch/spamassassin-3.1.4-normalize-test5.txt

エディタでルールを編集する箇所(箇条書きの3番)は、この記述で問題はありま
せん。でも老婆心で、ルールの記述例の後に、「重要」みたいな見出しを付け
て、「お使いのシステムのデフォルトの文字セットに関わらず、このファイルは
UTF-8で保存する必要があります」みたいな文章を追加しておくといいんじゃな
いかと思います。将来ユーザが増えたら、このことで悩む人が必ず出るんじゃな
いかと思うので。

> この案で私自身が懸念していた事項はだいたい解決したかなというところです。
> 後は、いろんなメールを食わせてみて問題が生じないかを様子見というところです。

ぜひ、このパッチを使って、どんどんテストしましょう。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
★ ブログを始めました http://blogs.itmedia.co.jp/ossway/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年7月29日 16:35
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/43104
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。