2007年7月 6日

[SpamAssassin-JP 580] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

> 日本語対応パッチのために作ったTokenizer::SimpleJAという簡易わかち書きの
> プラグインでは、日本語の文章で意味を持つ単語は漢字とカタカナが主であると
> いうことでひらがなで区切って単語を取り出すといったことをやっています。

私が作った最初の日本語対応パッチではKakasiを使ってその後Mecabに切り替え
ました。その後の経験から、

1. 辞書に依存するのは必ずしも得策とはいえないかもしれない
2. 将来はともかく、今の日本語スパムの「レベル」では、漢字、カタカナ、句
読点以
外の記号あたりで学習させるので十分な気がする

という見方に変わっています。

> ひらがなでは単語として意味を持てないので除外していたのですが、含めても
> よいのかもしれません。

以前の私の実験結果によると、日本語対応パッチによって大きく変わるのは、
spamの評価パターンではなくhamの方だと思われます。ひらがなの連なりがhamの
評価にどの程度影響しそうか、考えてみたり、実験してみる必要があると思います。

根拠レスですが、文体には個人差があると思うので、案外ひらがなの連なりも重
要な情報になるかもしれないという気がします。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
★ ブログを始めました http://blogs.itmedia.co.jp/ossway/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 6日 13:35
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61210
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。