2007年7月 4日

[SpamAssassin-JP 567] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
山口です.

From: SATOH Kiyoshi <satoh0@xxxxx>
Subject: [SpamAssassin-JP 563] Re: 分かち書き手法で精度が変らないというレポート
Date: Tue, 03 Jul 2007 23:24:02 +0900
>

> さとうです。

> > stealth 氏の post に脊髄反射 :-P
>  おおおお、こんなところでも (^^;

:-)

> > >  これを見ると、実はMeCabとかKakasiとかのちゃんとした分かち書きプログラ
> > > ムを利用した場合と、単に文字種の違いにより分かち書きした場合とで、ほぼ検
> > > 出率の違いが無い、という結果が出ています。
> > えーっと,もう3年程前になると思いますが,N-gram + αによるトークンの区
> > 切りってのが,実は辞書等に依存した形態素解析よりもコンスタントに効果が
> > あったという話の検証をしていまして...
> > MeCab とか Kakashi とか,個人的には実運用環境では使っておりません.
>
>  N-gramでの区切りは万能(言語に依存しない)けども、辞書がでっかくなる
> (=それだけ重くなる)という問題点があると聞いたことあるんですが、そのへん
> はそんなに問題にはならないのでしょうか。

単純に N-gram にすると大きくなります.
+αの分というのは,例えば「漢字の連続」,「片仮名の連続」,「数字の
連続」などで,長い語を擬似的に切り出す tokenizer の工夫もあります.

結局は,
「形態素解析等」→「トークン毎のコストを確認」→「辞書への還元」
「N-gram(改?)」 →「トークン毎のコストを確認」→「辞書への還元」
を比較する訳で,トークンの数に応じて共通部分の係数が変わる訳ですよね.

で,基本的なベイジアンフィルタであれば,形態素解析等を行う方がコストが
高いというのが今のところの経験値です.
(このあたりは,なべけんさんのページにも処理速度について書かれていた
ような気が...)

# 文書解析において,10年前の PC で古典の語彙辞書の構築に
# 凄く処理時間がかかって苦労したのが思い出されます...

SpamAssassin は,トークン化した後の処理がより複雑ですから,
処理コストの重みをある程度数値化しないと,より正確な予測は難しいと
思いますけれど.

単純な N-gram 自体はそんなに難しい訳ではないので,先ず置き換えて
比較でも良いのかもしれません.

-- Eisaku YAMAGUCHI
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 4日 00:42
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61078
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。