2006年7月28日

[SpamAssassin-JP 316]SpamAssassin-3.1.4日本語対応パッチ(案、その5)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

SpamAssassin-3.1.4に対する日本語対応パッチ(案、その5)を公開しました。
http://www.emaillab.org/spamassassin/

注意事項:

 ライセンスの関係上、わかち書きプラグインとしてKAKASIを使うのをやめました。
 また、MeCabのPerlバインディングとしてmecab-perlを使うのをやめ、Text::MeCab
 を使うようにしました。

文書も少しだけ書いてみました。
http://www.emaillab.org/spamassassin/patch/spamassassin-3.1.4-normalize-test5.txt

この案で私自身が懸念していた事項はだいたい解決したかなというところです。
後は、いろんなメールを食わせてみて問題が生じないかを様子見というところです。

----------------------------------------------------------------------------
test4からの変更点

- バグの修正
-- Message.pmにおいて言語情報を取得できないときに警告が出ていたのを修正した。
-- \x0が含まれているメッセージが誤ってUTF-16と判定されてしまうことを防止した。
- パッチと一緒に配布するわかち書きプラグインにText::MeCabを使うことにした。
- ベイズ処理時に1文字のトークンと2文字のひらがなあるいはカタカナのトークン
を削除するようにした。
- Tokenizer.pmの仕様を変更した。
- Charset.pmの変換マップの整理を行った。
- リファクタリングもどきを行った。
----------------------------------------------------------------------------

--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年7月28日 01:47
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/42899
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。