2007年7月17日

[SpamAssassin-JP 597] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **

 沖です。すみません。山口さんに、リプライしてしまいました。
スレッド切れます。ごめんなさい。

>
> 世の中には JIS にないものが,良く使われているのですよね.

> # ShiftJIS って JIS にないものを許容したエンコーディングなんですけれど...
>
> で,よく spam でも使われている CP932 一つを取っても,重複が存在します.
> また,Unicode は unique でなければいけないのですが,実は... というオチ
> もあります.
>
> 突き詰めると,コンバータの仕様に依存したものになる次第.
> 最近の iconv がどうなのか... は,追っ掛けてる暇がないのですが,
> 同様の問題は Samba とかでも往々にして発生しているので,そのあたりも
> survery していただくと,Unicode が如何に非漢字圏の人によって考えられら
> れたものを優先的に取り込まれているかがわかるとおもいます.
>
> Unicode って locale を意識したら使えない... なんてことは,随分昔から
> 認識されてるんですが,使える文字のバリエーションのことを考えると,
> 実装する側は Unicode が楽ちんとなるわけです.
>
> でも,「編集する」ソフトまで考えると,やっぱり Unicode って使えねぇ...
> ってなる訳ですが.
>
 私はプログラマなので、芸術的な考え方よりも、現実的な考え方を
してしまうのかもしれません。ベイズでSpamらしさの確率を得るのに、
いちいち全部の単語を"文字通り"処理する必要は無いでかな?と
思っています。

数学的に言えば、ベイジアンの辞書を構成する単語を全単射(1対1)で
保持しなくても、一部の変換が多対1の関係で致命的になるほど、
ベイジアンの精度がおちないのではないかと思っています。

> >  更に一歩進めて、記号「○■◇...」の類を全部「○」に統一変換して
> > 辞書を作っても、スパム判定利用する上では好都合。
> >  よって、UTF-8 で扱って良い。
>
> その事例って,どのように収集されているでしょうか.
>
> コストのかけかたによっては,signature とか,DM^H^Hmail managine 等の
> banner が引っ掛かってしまうと思うのですけれど.
> それって end user が望んでいることですか?
> # 要らない mail managine なら購読止めればいいわけで.:-p

 収集はしてません、コストのかけかたによっては、banner が引っかかる
可能性はあるでしょうね。ここは、実装する段階で効果を確かめた方が
いいでしょう。思いつきで、好都合は、ちょっと言い過ぎですか。


--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月17日 11:53
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/62036
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。