2006年5月28日

[SpamAssassin-JP 260]SpamAssassin-3.1.2日本語対応パッチ(案、その3)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

月1回のkeepaliveパケットのような投稿ですみません。

日本語対応パッチ案その3を公開しました。
http://www.emaillab.org/spamassassin/

その2よりは良くなっているはずです。

SpamAssassin-3.1.2に対応した他、次のような変更点があります。

---- spamassassin-3.1.2-normalize-test3.txt より -------------------------

spamassassin-3.1.2-normalize-test3.patch (2006-05-28)

test2からの変更点

- バグの修正
test1の「normalize時に漢字で終わり次の行が漢字で始まる行はunfoldingする。」
がtest2において機能していなかったのを修正した。
Node.pmにおいてinvisibleなテキストの処理でエラーが発生していたのを修正した。
- 分かち書きの処理を1行ごとに行っていたのをボディ一括で行うようにした。
処理速度がわずかながら向上するはず。
- 分かち書き処理の前に全角空白文字を空白文字に置換するようにした。
- 文字コード変換の処理をMail/SpamAssassin/Utils.pmから
Mail/SpamAssassin/Util/Charset.pmに移した。
- 全般的に処理コードを整理した。
- パッチを3分割し、プラグインの設定ファイルは別ファイルにした。
文字符号化方式や言語の判定処理
spamassassin-3.1.2-charset-util-test3.patch
日本語対応パッチ本体
spamassassin-3.1.2-normalize-charset-test3.patch
kakasiとMeCabの分かち書きプラグイン
spamassassin-3.1.2-tokenizer-plugins-test3.patch
tokenizer.pre
プラグインの設定ファイル

今後、考慮すべき点

- ベイズの学習上、分かち書き処理後にひらがなやカタカナ1文字は除去した方が
よいのではないか?
- Encode::Detectモジュールはみんなコンパイルとインストールが出来ているのか?
CPANを見ると、失敗している人の方が多いようであるが。
- MeCab-0.90rc10以降では次のようなエラーが出て、分かち書きが失敗する。
TypeError in method 'Tagger_parse', argument 2 of type 'char const *'
どうしてか?
まだ、深く追いかけていないが、mecab-perlのMeCab_wrap.cxxが吐き出した
エラーであるところまではわかった。

--------------------------------------------------------------------------
--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年5月28日 12:52
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/40077
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。