2006年5月28日

[SpamAssassin-JP 262] Re:SpamAssassin-3.1.2日本語対応パッチ(案、その3)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

> 日本語対応パッチ案その3を公開しました。
> http://www.emaillab.org/spamassassin/
> その2よりは良くなっているはずです。

お、楽しみです。今週前半はテストできないのですが、テストしてみます。

> - バグの修正
> test1の「normalize時に漢字で終わり次の行が漢字で始まる行はunfoldingする。」
> がtest2において機能していなかったのを修正した。
> Node.pmにおいてinvisibleなテキストの処理でエラーが発生していたのを修正した。

私の初版パッチではこれもKakasiなどに頼っていましたが、ロジックで対応され
たのですね。

> - 分かち書きの処理を1行ごとに行っていたのをボディ一括で行うようにした。
> 処理速度がわずかながら向上するはず。
> - 分かち書き処理の前に全角空白文字を空白文字に置換するようにした。

そう言えば全角、「半角」を統一するかどうか、という検討課題もありそうです
ね。対応する1バイト文字がある場合、nbodyでは1バイト文字に変換してある、
ということがいいのかどうかです。

> - ベイズの学習上、分かち書き処理後にひらがなやカタカナ1文字は除去した方が
> よいのではないか?

Bayes.pmでも英単語のwithout、mailtoその他の文字を削っていますね。これと
同じようなことですね。1文字に限らず、今後の検討課題になるような気がします。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
★ ブログを始めました http://blogs.itmedia.co.jp/ossway/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年5月28日 18:10
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/40081
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。