2006年3月21日

[SpamAssassin-JP 111] Re:SpamAssassin-3.1.1日本語対応パッチ(案、その1)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
こんにちは。松田陽一@三鷹です。

From: Motoharu Kubo
Subject: [SpamAssassin-JP 108] Re: SpamAssassin-3.1.1日本語対応パッチ(案、その1)
Date: Mon, 20 Mar 2006 21:28:19 +0900

> > - normalizeはコンフィグ・オプション"normalize_encoding"を"1"に設定する
> > ことにより有効になる。このとき、コンフィグファイルに記述されたパターン
> > は全てUTF-8の文字として扱われ、過去(生ベタ書き)とのの互換性は無くなる。
> > 無効の場合は過去との互換性は保たれている。
> > 例) local.cfに以下の行を追加する。
> > normalize_encoding 1
>
> 以前、松田さんと議論したことがあるのですが、JISとShift-JISのスパムで内容
> のニュアンスが異なる場合、従来の使いにくいルール記述方法も役立つのではな
> いか、という意見があるかもしれません。
>
> 従来のbodyなどのテストはそのまま残して、わかち書きしたテキストの処理のた
> めにnbody (またはlbody)などのテストを新しく作る、という方法も検討する必
> 要があるかもしれないですね。でも、この改造はかなり大がかりになって、オー
> バーヘッドも増えるかもしれません。

http://mail-archives.apache.org/mod_mbox/spamassassin-dev/200601.mbox/%3c20060117.082203.35013462.yoh@xxxxx%3e
http://mail-archives.apache.org/mod_mbox/spamassassin-dev/200601.mbox/%3c20060117203454.4BE1D590249@;xxxxx%3e

下手糞な英語で恥ずかしいことこの上ないのですが、一読して頂ければ
幸いです。

patch を本家にマージしてもらうには、互換性を第一に考慮しなければ
ならないと思います。
body ルール対象のプレーンテキストメッセージに対して、 kakasi 或
は mecab のわかち書き処理と UTF-8 変換を行いますと、従来のルール
との互換性が損なわれます。
これは日本語圏だけの問題ではなく、他国語圏を巻き込むこととなりま
す。

したがいまして、 body ルールはそのままに、新たに body メッセージ
に対してわかち書き処理と UTF-8 変換を施した "normalized body" と
いう意のルールを新設し、これに対して UTF-8 による NG ワード記入
を行う、というアプローチが理想だと思います。

是非、ご検討願います。
--
日本語spam展示博覧会開催中
http://www.flcl.org/~yoh/spam/jp/
松田 陽一(yoh)
mailto:yoh@xxxxx
http://www.flcl.org/~yoh/diary/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年3月21日 19:41
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41016
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。