2007年7月 5日

[SpamAssassin-JP 577] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **

沖です


> 確か仕様が定まった段階では...
>

> 日本語 -> 日本語DB
> その他 -> 英語DB (後に US-ASCII 以外のものもこちらに含まれる形に...)
>
> だったと思います.
> なべけんさん的には,辞書を増やすことについて色々と迷っておられた模様.
> # 中国語か韓国語対応版は覗いてみたことがないなぁ...
>
 分かち書きについて調べてみたことがあり、その時の感触では

1.韓国語(朝鮮語)では、分かち書きの必要が無い
http://www.president.go.kr/
2.中国語の分かち書きが見つからなかった。


> その昔の仕様として,内部コードを EUC-JP にしてしまわれたのですが,
> マルチリンガルに対応する意味では UTF-8 とかの方が良かったのでは?
> と思った事があります.
> コード変換を伴うと,逆変換が成立しないものもあるので,正規化が重要だと
> 思うのですが,Unicode はちょっとねー... という矛盾した思いも.

 ここについて、私も考えてみた事があります。
JIS => UTF-8 により、固有な文字コードを一律○に変換したとしても、
辞書としては遜色が無い。
 更に一歩進めて、記号「○■◇...」の類を全部「○」に統一変換して
辞書を作っても、スパム判定利用する上では好都合。
 よって、UTF-8 で扱って良い。

 ま、ちょっと乱暴かもしれませんが、そうでもしないと大変ですよね。

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 5日 09:49
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61154
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。