2006年2月28日

[SpamAssassin-JP 71] Re:SpamAssassin 3.1.0の日本語対応パッチ

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

> 滝澤と申します。
> こちらには参加したばかりです。

はじめまして。これから作るユーザ会にも可能な範囲でぜひご参加くださいね。


> 一応、問題なく動作しました。

安心しました。ところでパッチが間違っていて昨日アップしなおしましたが、昨
日のパッチで確認していただけたのでしょうか。

> 気になる点として、分かち書きの影響のノウハウが必要になると思います。
> 試しに「出会い系」でルールを書いてみたらうまくマッチしませんでした。
> 分かち書きの結果として「出会い 系」に分かれてしまっているためでした。
> ルール(local.cf)のUTF-8 normalizeと分かち書きは切り離して考えた方が
> よいのかなというのが感想です。評価するタイミングの問題かもしれませんが。

わかち書きを導入するかどうかは、たしかに議論があると思います。

o 品詞単位で区切るので、区切りが細かくなりすぎる(欠点)

o kakasi、MeCabなど使うソフトによって区切り方が異なることがあり、使って
いるソフトでどう区切られるか確認しなければならない(欠点)

o 日本語は単語の途中で改行を入れることを許すが、わかち書きすることで改行
で分割された単語が「復活」する(長所)

などの感想を私は持っています。

英語のスパムでもときどき見かけますが、単語の途中であえて改行するといった
手口に対抗するためには、わかち書きが望ましいんじゃないかと思っています。

# 滝澤さんのコメントを反映した一文をWikiに追加しておきました。
#
# http://spamassassin.jp/jsaug_wiki/BackGround?action=edit&editor=text

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545/090-8513-0246
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年2月28日 11:08
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/40786
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。