2007年7月25日

[SpamAssassin-JP 605] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
山口です.

メイルで考え方を伝えるのは難しいですね.
ということで,必要以上に長く,くどくなっているかもしれません.

From: OKI Miyuki <oki@xxxxx>

Subject: [SpamAssassin-JP 597] Re: 分かち書き手法で精度が変らないというレポート
Date: Tue, 17 Jul 2007 11:53:48 +0900
Message-ID: <20070717115059.9352.OKI@xxxxx>
>
>  沖です。

> > で,よく spam でも使われている CP932 一つを取っても,重複が存在します.
> > また,Unicode は unique でなければいけないのですが,実は... というオチ
> > もあります.

>  私はプログラマなので、芸術的な考え方よりも、現実的な考え方を
> してしまうのかもしれません。ベイズでSpamらしさの確率を得るのに、
> いちいち全部の単語を"文字通り"処理する必要は無いでかな?と
> 思っています。

決して芸術的考え方ではないのです.
現実で,unique にならないのが Unicode なのですけれど.
その認識をされていないのであれば,多分,話の接点は見いだせないと思います.

そんなの,"SpamAssassin という閉じた中では,converter の仕様が変わらな
い限り関係ない" という考えもまた解かなと考えてはいます.

コンバータの種類によって,「ある文字コード」の「とある文字」が,
Unicode になる時に,一意に決定されず,Unicode のある文字になったり別の
ある文字になったりすることがあります.

ex. 記号では wave dash 等

N-gram 云々以前の tokenizer 上の切り分け場所の差にもなりますので,
Unicode 化の際は,Unicode は万能ではなくてマッピングに関する注意とか
survery をしっかりやり直しておかないと安易には難しいよね!!!
という次第です.

> 数学的に言えば、ベイジアンの辞書を構成する単語を全単射(1対1)で
> 保持しなくても、一部の変換が多対1の関係で致命的になるほど、
> ベイジアンの精度がおちないのではないかと思っています。

それに対して何か投げ掛けるとしたら,

1:1 で投射した場合と,n:1 で投射することを許した場合との比較を
行ってみていただく必要があるのではないでしょうか?

ということです.

そこまでは比較実験したことがないのですが,経験的に敢えて単語の辞書を崩
すような term の出現があっても,それが spam の特徴であって,それを捨て
ずに吸収すれば,spam 判定度が上がるというのが経験則だったりします.

> > >  更に一歩進めて、記号「○■◇...」の類を全部「○」に統一変換して
> > > 辞書を作っても、スパム判定利用する上では好都合。
> > >  よって、UTF-8 で扱って良い。
> >
> > その事例って,どのように収集されているでしょうか.
>
>  収集はしてません、コストのかけかたによっては、banner が引っかかる
> 可能性はあるでしょうね。ここは、実装する段階で効果を確かめた方が
> いいでしょう。思いつきで、好都合は、ちょっと言い過ぎですか。

先ず一つ.小生は思いつきが好都合とは思いませんし,そのような発言が言い
すぎとは思いません.

自信の経験からは,思いつきから出てくる,heuristic な処理は実は非常に
有効な可能性を多分に含んでいる事があるものだと思います.

しかし,その正当性を訴えかけるためには,試行したデータを見せたり,
反例を潰していくことが必要です.

提案に対して一つお願いするとしたら,例示した mail magazine 等の banner
が誤判定されてしまう可能性は? となる訳です.
少なくとも,Web 等で公開されている mail magazine では,あぁ...
banner に記号が多用されているなぁと思いました.人目を引きたいのは,
spam も mail magazine の広告も一緒.

小生は,容易に類推可能な反例を示してみました.
それ,「大丈夫でした」問題ありませんという判断事例があると,「おおそう
なのですか!」じゃ,そういう方式についてもっと検討してみましょう.成功
したら広めましょうということになると思います.:-)

因に,SpamAssassin をベースにしたものとか,その他の複数エンジンを抱え
るサポート付き商品であっても,現状でも mail magazine のみならず,
security vendor からの report(security alart) や,全うな業務連絡を
spam 扱いしてラベル付けしてくれるなど,世の中には false positive が
ゴロゴロしているという認識です.
(その誤判定要因は,非常に安易なスコアの付け方によるものだったりします)
敢えて,false positive に傾くネタは増やすのは,信頼性を下げるだけでは?
というのがその心でもあります.

既に色々な文字コードの実装がある以上,完璧は無理だと思っています.
実用性と美しさとの両立は不可能だという認識です.

spammer は,自身が記号混じりの特異な語彙を使うことが,spam と判定され
る確率が高くなることを考えないのか,敢えて特異な表現を使います.
敢えてその特徴を捨ててしまうかもしれない実装をする必要はないのではない
かと.
その特徴も含めて判定するのが Bayesian Filter の本質だという認識です.

-- Eisaku YAMAGUCHI @ ML への reply は時間がかかるかも...
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月25日 03:56
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/62161
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。