2007年7月 3日

[SpamAssassin-JP 563] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
さとうです。

On Tue, 03 Jul 2007 22:20:11 +0900 (JST)
Eisaku YAMAGUCHI <eisaku@xxxxx> wrote:
Subject: [SpamAssassin-JP 560] Re: 分かち書き手法で精度が変らないというレポート

> 山口です.
> stealth 氏の post に脊髄反射 :-P

 おおおお、こんなところでも (^^;

> >  これを見ると、実はMeCabとかKakasiとかのちゃんとした分かち書きプログラ
> > ムを利用した場合と、単に文字種の違いにより分かち書きした場合とで、ほぼ検
> > 出率の違いが無い、という結果が出ています。
> えーっと,もう3年程前になると思いますが,N-gram + αによるトークンの区
> 切りってのが,実は辞書等に依存した形態素解析よりもコンスタントに効果が
> あったという話の検証をしていまして...
> MeCab とか Kakashi とか,個人的には実運用環境では使っておりません.

 N-gramでの区切りは万能(言語に依存しない)けども、辞書がでっかくなる
(=それだけ重くなる)という問題点があると聞いたことあるんですが、そのへん
はそんなに問題にはならないのでしょうか。

 そういった問題ないのだとすると、N-gramでの分かち書きであれば、言語依存
しないから、パッチを取り込んでもらう際にだいぶ有利になると思うので。


--
佐藤 潔 (SATOH Kiyoshi) <satoh@xxxxx> http://d.hatena.ne.jp/stealthinu/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 3日 23:24
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61040
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。