2006年9月11日

[SpamAssassin-JP 376]SpamAssassin-3.1.5日本語対応パッチ(案、その6)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

SpamAssassin-3.1.5に対する日本語対応パッチ(案、その6)を公開しました。
http://www.emaillab.org/spamassassin/

3.1.5への対応が遅れて申し訳ありません。

機能を少し追加しました。

Tokenizer::SimpleJAプラグインというわかち書きプラグインを追加しました。
このプラグインは文字種毎にわかち書きを行います。実装上はアルファベット、
カタカナ、漢字のみをベイズ用のトークンとして取り出すようにしました。
ひらがなはノイズとなりやすいのでトークンとして使いません。かなり、
乱暴な処理を行っていますが、実用上、それほど問題は生じないと思います。

なお、このプラグインを作成した意図は次の通りです。
- 開発メーリングリストに投稿する際に、MeCabが無いと評価できないのは良くない。
- MeCabを導入できない、あるいは手っ取り早く評価をしてみたい方のために、
何かわかち書きプラグインが欲しかった。

もちろん、MeCabの方が精度が高いので、MeCabを使える方はMeCabプラグイン
の方をお使いください。


----------------------------------------------------------------------------
spamassassin-3.1.5-normalize-test6.patch (2006-09-10)

test5からの変更点

- ReplaceTagsプラグインをnbodyルールに対応させた。
- 設定オプションreport_charsetに従ってreportの文字コードの変換を行うように
した。
- 日本語の大雑把なわかち書きを行うTokenizer::SimpleJAプラグインを追加した。

----------------------------------------------------------------------------

--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年9月11日 01:07
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/45788
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。