2006年3月26日

[SpamAssassin-JP 128] Re:SpamAssassin-3.1.1日本語対応パッチ(案、その1)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
こんにちは。松田陽一@三鷹です。

書きかけてそのまま放置してました。すみません。

From: TAKIZAWA Takashi
Subject: [SpamAssassin-JP 113] Re: SpamAssassin-3.1.1日本語対応パッチ(案、その1)

Date: Wed, 22 Mar 2006 00:49:05 +0900

> 滝澤です。

> On Tue, Mar 21, 2006 at 07:41:53PM +0900,
> MATSUDA Yoh-ichi / 松田陽一 wrote:

> > patch を本家にマージしてもらうには、互換性を第一に考慮しなければ
> > ならないと思います。
> > body ルール対象のプレーンテキストメッセージに対して、 kakasi 或
> > は mecab のわかち書き処理と UTF-8 変換を行いますと、従来のルール
> > との互換性が損なわれます。
> > これは日本語圏だけの問題ではなく、他国語圏を巻き込むこととなりま
> > す。
> >
> > したがいまして、 body ルールはそのままに、新たに body メッセージ
> > に対してわかち書き処理と UTF-8 変換を施した "normalized body" と
> > いう意のルールを新設し、これに対して UTF-8 による NG ワード記入
> > を行う、というアプローチが理想だと思います。
>
> 了解です。
> bodyとは別のルールを新設する方向で検討します。
> 新しいルールの追加はちょっと大がかりになりそうなので、もうちょっと時間を
> ください。

はい、待ってます。
互換性を満たせば、本家に採用される可能性は高くなります。

> ちなみにルールの名前は何がよいでしょうか?
> 思いついたものを並べてみます。わかりやすさと短さからはutf8bodyかなぁと。
> - nbody
> - normalbody
> - normalized_body
> - normalization_body
> - ubody
> - utf8body

一応私も nbody を推しておきます。
もしかすると、本家に取り込まれる際には名称を変更させられる可能性も
考えられますから。

> 設置スイッチ normalize_encoding も何か良い名前がありましたら提案を
> お願いします。

スイッチの名称はそのままでも良いかと思います。
もし、プラグインとしてできるようになれば、プラグインの有効 / 無効
でオン / オフと等しい動作にできるかも知れません。

> また、Encode::Detectについて、インストールスクリプトとか、Encodeとの互換
> 性問題(単にMozillaから持ってきたものだから)とか、考える必要があるものが
> いくつかあります。検出性能は非常にすばらしいのですが。

この辺は議論で突っ込んでいくと面白いかも知れません。
日本語対応ベイズフィルタは数多くあるので、それらの検出技術とその性
能と比較して、より良いベイズフィルタを作るのが良いように思います。
作るなら後発ですから、先発の長所短所を吟味して、いいものに仕上げま
せんか。
場合によってはサンプルプログラムを幾つか作成して、サンプル spam /
ham をターゲットに検証するとか、面白いと思いませんか。
--
日本語spam展示博覧会開催中
http://www.flcl.org/~yoh/spam/jp/
松田 陽一(yoh)
mailto:yoh@xxxxx
http://www.flcl.org/~yoh/diary/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年3月26日 11:13
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41083
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。