2007年7月 3日

[SpamAssassin-JP 559]分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
さとうです。

 PopFileの日本語化をされている方の日記に、こんなエントリーが上がってい
ました。

あまつぶ@はてなダイアリー - 続々・分かち書きプログラムの違いによる精度比較

http://d.hatena.ne.jp/amatubu/20070702#p1

 これを見ると、実はMeCabとかKakasiとかのちゃんとした分かち書きプログラ
ムを利用した場合と、単に文字種の違いにより分かち書きした場合とで、ほぼ検
出率の違いが無い、という結果が出ています。

 現在、日本語化spamassassin導入するのの問題として、MeCabのインストール
でつまずく場合が多かったり、手間だったりする、というのがあると思うのです
が、この結果を見るかぎりだと、簡易版分かち書きでも十分な検出率となるため、
そちらを標準としても良いのではないか、と思いました。

 すぐに結論出せる話ではないと思いますが、検討してみる価値はあるのではな
いでしょうか。


--
佐藤 潔 (SATOH Kiyoshi) <satoh@xxxxx> http://d.hatena.ne.jp/stealthinu/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 3日 18:24
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61025
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。