2007年7月 4日

[SpamAssassin-JP 570] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
さとうです。

On Tue, 3 Jul 2007 23:43:20 +0900
TAKIZAWA Takashi <taki@xxxxx> wrote:
Subject: [SpamAssassin-JP 564] Re: 分かち書き手法で精度が変らないというレポート

> > が、この結果を見るかぎりだと、簡易版分かち書きでも十分な検出率となるため、
> > そちらを標準としても良いのではないか、と思いました。
> そうですね。
> 日本語対応パッチのために作ったTokenizer::SimpleJAという簡易わかち書きの
> プラグインでは、日本語の文章で意味を持つ単語は漢字とカタカナが主であると
> いうことでひらがなで区切って単語を取り出すといったことをやっています。
> ひらがなでは単語として意味を持てないので除外していたのですが、含めても
> よいのかもしれません。

 SimpleJAを強化?して、テスト結果が良ければそれをデフォルトにしてしまう、
ということをイメージして最初のメールを書きました。

On Wed, 4 Jul 2007 00:03:03 +0900
TAKIZAWA Takashi <taki@xxxxx> wrote:
Subject: [SpamAssassin-JP 565] Re: 分かち書き手法で精度が変らないというレポート

> >  そういった問題ないのだとすると、N-gramでの分かち書きであれば、言語依存
> > しないから、パッチを取り込んでもらう際にだいぶ有利になると思うので。
> 日本語対応パッチを作っているときに、N-gramも検討したのですが、データ量が
> 大きくなりすぎることが気になって採用しませんでした。
> ベイズの学習データの制限値を大きくしたり、N-gram用のベイズの学習データを
> 従来の学習データとは別に管理したりすれば問題ないのかも知れませんが。
> でも、中国語のベイズ学習にも対応しようとするとN-gramを採用するしかないん
> ですよね。

 そうなんですよね。
 書く言語毎に最適化された分かち書き手法を持てるようにはしておいて、デフォ
ルトだとN-gramを使うようになっている、とかなっているのがベターなのかなと
思いました。


 現在の日本語化SpamAssassinでの改善出来たらいいなあ、という点は

1) 導入の簡素化(MeCabを使わなくても良い)
2) 本家へのマージ(言語に依存せず利用出来る)

というあたりなのかと自分は思っていました。
 分かち書きがSimpleJA使えるのなら、1)の問題はクリア出来るかなあと。
 それで、2)については、N-gram実装も選べたら進めやすいかなあと。


--
SATOH Kiyoshi <satoh@xxxxx> http://d.hatena.ne.jp/stealthinu/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 4日 10:59
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61092
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。