2007年7月 3日

[SpamAssassin-JP 564] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

On Tue, Jul 03, 2007 at 06:24:00PM +0900,
SATOH Kiyoshi wrote:

>  現在、日本語化spamassassin導入するのの問題として、MeCabのインストール

> でつまずく場合が多かったり、手間だったりする、というのがあると思うのです
> が、この結果を見るかぎりだと、簡易版分かち書きでも十分な検出率となるため、
> そちらを標準としても良いのではないか、と思いました。

そうですね。
日本語対応パッチのために作ったTokenizer::SimpleJAという簡易わかち書きの
プラグインでは、日本語の文章で意味を持つ単語は漢字とカタカナが主であると
いうことでひらがなで区切って単語を取り出すといったことをやっています。
ひらがなでは単語として意味を持てないので除外していたのですが、含めても
よいのかもしれません。

--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 3日 23:43
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61041
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。