2007年7月14日

[SpamAssassin-JP 586] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
山口です.

少しだけ山越えが終わったので.:-)

From: OKI Miyuki <oki@xxxxx>
Subject: [SpamAssassin-JP 577] Re: 分かち書き手法で精度が変らないというレポート

Date: Thu, 05 Jul 2007 09:49:48 +0900
>
> 沖です

> > コード変換を伴うと,逆変換が成立しないものもあるので,正規化が重要だと
> > 思うのですが,Unicode はちょっとねー... という矛盾した思いも.
>
>  ここについて、私も考えてみた事があります。
> JIS => UTF-8 により、固有な文字コードを一律○に変換したとしても、
> 辞書としては遜色が無い。

世の中には JIS にないものが,良く使われているのですよね.
# ShiftJIS って JIS にないものを許容したエンコーディングなんですけれど...

で,よく spam でも使われている CP932 一つを取っても,重複が存在します.
また,Unicode は unique でなければいけないのですが,実は... というオチ
もあります.

突き詰めると,コンバータの仕様に依存したものになる次第.
最近の iconv がどうなのか... は,追っ掛けてる暇がないのですが,
同様の問題は Samba とかでも往々にして発生しているので,そのあたりも
survery していただくと,Unicode が如何に非漢字圏の人によって考えられら
れたものを優先的に取り込まれているかがわかるとおもいます.

Unicode って locale を意識したら使えない... なんてことは,随分昔から
認識されてるんですが,使える文字のバリエーションのことを考えると,
実装する側は Unicode が楽ちんとなるわけです.

でも,「編集する」ソフトまで考えると,やっぱり Unicode って使えねぇ...
ってなる訳ですが.

>  更に一歩進めて、記号「○■◇...」の類を全部「○」に統一変換して
> 辞書を作っても、スパム判定利用する上では好都合。
>  よって、UTF-8 で扱って良い。

その事例って,どのように収集されているでしょうか.

コストのかけかたによっては,signature とか,DM^H^Hmail managine 等の
banner が引っ掛かってしまうと思うのですけれど.
それって end user が望んでいることですか?
# 要らない mail managine なら購読止めればいいわけで.:-p

-- EY
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月14日 05:22
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61570
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。