2007年7月 3日

[SpamAssassin-JP 560] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
山口です.

stealth 氏の post に脊髄反射 :-P

From: SATOH Kiyoshi <satoh0@xxxxx>
Subject: [SpamAssassin-JP 559] 分かち書き手法で精度が変らないというレポート

Date: Tue, 03 Jul 2007 18:24:00 +0900
>
> あまつぶ@はてなダイアリー - 続々・分かち書きプログラムの違いによる精度比較
> http://d.hatena.ne.jp/amatubu/20070702#p1
>
>  これを見ると、実はMeCabとかKakasiとかのちゃんとした分かち書きプログラ
> ムを利用した場合と、単に文字種の違いにより分かち書きした場合とで、ほぼ検
> 出率の違いが無い、という結果が出ています。

えーっと,もう3年程前になると思いますが,N-gram + αによるトークンの区
切りってのが,実は辞書等に依存した形態素解析よりもコンスタントに効果が
あったという話の検証をしていまして...
MeCab とか Kakashi とか,個人的には実運用環境では使っておりません.
(更に言っちゃうと Spammassasin がメインでないので,ここに出てくるな!!!
とか言われちゃいそうですけれど -_-;;;)

実際の所,なべけんさんの bsfilter とかの紹介でも,N-gram の変形版で
高い効果が得られているっていう話が日記か fourceforge の掲示板にあった
ような...

face to face で突っ込んだ話などをさせていただく際には,昔はそんな話も
しておりました.(もう一昔か二昔の気分)

-- Eisaku YAMAGUCHI
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 3日 22:20
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61050
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。