2006年9月11日

[SpamAssassin-JP 377] Re:SpamAssassin-3.1.5日本語対応パッチ(案、その6)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

オープンソースカンファレンスのことなどで昨日滝澤さんと会って、わかち書き
プラグインのことを聞きました。

> Tokenizer::SimpleJAプラグインというわかち書きプラグインを追加しました。

> このプラグインは文字種毎にわかち書きを行います。実装上はアルファベット、
> カタカナ、漢字のみをベイズ用のトークンとして取り出すようにしました。
> ひらがなはノイズとなりやすいのでトークンとして使いません。かなり、
> 乱暴な処理を行っていますが、実用上、それほど問題は生じないと思います。

私も「辞書はホントに必要かな」とか「スパム判別のためのトークナイズには特
有のアルゴリズムというか要件があるのかな」などと漠然と考えていたところ
だったので、非常に面白いと思います。

ひらがなを無視するのはちょっと乱暴かな、とも思うのですが、n-gramなどより
データベースが小さく抑えられて処理速度低下も抑えられるんじゃないかなど、
メリットもありそうだと思います。

> なお、このプラグインを作成した意図は次の通りです。
> - 開発メーリングリストに投稿する際に、MeCabが無いと評価できないのは良くない。

これもかなり重要でしょうね。すばらしい配慮だと感心しました。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
★ ブログを始めました http://blogs.itmedia.co.jp/ossway/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年9月11日 02:01
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/45790
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。