2006年2月28日

[SpamAssassin-JP 74] Re:SpamAssassin 3.1.0の日本語対応パッチ

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

> はい、興味があるので協力したいと思います。
> 一応、へっぽこPerl使いです。

あ、Perl使い、大歓迎です。「へっぽこ」なんて書いておられますけど、すぐ

「バリバリ」に変わりますよ:-)

# 私ももっと若くて自由な立場だったらオブジェクト指向の領域までバリバリや
# りたいんですけど....

> 昨日のパッチで確認しました。

安心しました。

> 分かち書きに関しては色々な案を考えて試してみるしかないですかね。

今のパッチはkakasiを使っていますが、MeCabの方がコード変換を節約できると
いうメリットがあります。一応MeCabでも動作は確認してありますが、パッチに
まとめていないんです。数行書き換えるだけなんですけどね。

Bayesにかけるデータは、たぶんわかち書きしておかないと収拾つかないと思う
ので、わかち書き自体は必須だと思っています。

しかしbodyなどのルールにかけるのは、

(1) normalizeしていない従来と互換の本文(およびヘッダ)
(2) normalizeしただけの本文(およびヘッダ)
(3) normalizeしてわかち書きした本文(およびヘッダ)

の3とおりが考えられます。

Wikiに書いた互換性の観点から言うと、

(1)は現在のbodyなどのルール用に残す。(2)か(3)をテストするために新たに
nbodyなどのテストを追加する

という方向が必要なんじゃないか、と思っています。

(2)はnormalize (i18n)、(3)は言語構造まで考慮してlocalize (l10n)したデー
タ構造、という考え方をするなら、body、nbody、lbodyみたいなテストを用意す
ることになるのかな。でもどんどん複雑になって、処理速度にも悪影響が出そ
う。ユーザ会などの「公的な」ユーザ層での合意によってどこかで割り切る必要
があるのかな。

こんなことを今日考えていました。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545/090-8513-0246
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年2月28日 23:37
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/40791
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。