2007年7月 4日

[SpamAssassin-JP 574] Re:分かち書き手法で精度が変らないというレポート

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
山口です.

From: SATOH Kiyoshi <satoh0@xxxxx>
Subject: [SpamAssassin-JP 569] Re: 分かち書き手法で精度が変らないというレポート
Date: Wed, 04 Jul 2007 10:35:51 +0900
>

> さとうです。
>
> On Wed, 04 Jul 2007 00:42:52 +0900 (JST)
> Eisaku YAMAGUCHI <eisaku@xxxxx> wrote:
> Subject: [SpamAssassin-JP 567] Re: 分かち書き手法で精度が変らないというレポート
>
> > >  N-gramでの区切りは万能(言語に依存しない)けども、辞書がでっかくなる
> > > (=それだけ重くなる)という問題点があると聞いたことあるんですが、そのへん
> > > はそんなに問題にはならないのでしょうか。
> > 単純に N-gram にすると大きくなります.
> > +αの分というのは,例えば「漢字の連続」,「片仮名の連続」,「数字の
> > 連続」などで,長い語を擬似的に切り出す tokenizer の工夫もあります.
>
>  あ、そのαが元ネタの話ですね。んで、そのαだけで十分な結果が出た、と。

+α分の効果があるかどうかは ?!
ただ,+α については,辞書削減の効果はあります.

> > で,基本的なベイジアンフィルタであれば,形態素解析等を行う方がコストが
> > 高いというのが今のところの経験値です.

>  なるほど。「経験値」と書かれているように、このへんは実際に動かしてみて
> 試さないとわからん世界、ということですよね。

はい.
昨今の計算機の性能ですと,力業でも体感速度的には個人使用では許容できる
ものなのかもしれませんが,個人的にはシステムに組み込む場合にはやはりス
ケールさせる妨げになるものはお勧めしません.

それでも,計算機の能力が勝ってしまうなら,ECO と記述が似て非なる EGO
に走る宗教があっても否定はできません.

その場その場の BCP では,EGO もアリだと思います.


小生は,たまたま古典の現代訳+研究論文の書籍の出版にあたり,計量国語学
の観点から攻めた際に,ある時代のある文献の形態素解析を行いました.
(辞書が手作りなんで,無茶苦茶大変だった訳ですが...)

その時が,本格的な形態素解析との出会いだった訳ですが,辞書照会とコスト
評価との組合わせによる計算処理になるので,N-gram のような単純な切り分
けとは処理のオーダーが違います.
それを実時間で,結構凄まじい時間数お付き合いしていたので,そのあたりの
経験というかコスト差の印象が非常に強く残っています.

> > 単純な N-gram 自体はそんなに難しい訳ではないので,先ず置き換えて
> > 比較でも良いのかもしれません.
>
>  ちなみに、どっかにPerlで書いてあって日本語もちゃんと処理してくれるN-gram
> 分割ルーチンって転がってますか?

bsfilter の開発時には,色々と feedback などさせていただいたので,
Ruby で書かれた tokenizer が bsfilter の中で活躍しています.

小生は,Ruby をかじりながら,bsfilter を改造して実験してみていたりした
のですが,色々とありまして,ちょっとすぐに出てこない状況です.

bsfilter 自体を参照頂くのが最も早いのではないかと.

-- Eisaku YAMAGUCHI
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月 4日 21:34
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61129
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。