2006年10月31日

[SpamAssassin-JP 443] Re:ルールセットのベイジアンフィルタでの学習(Re: ルールセットについて)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

>> (3) サンプリングなどの手法
>> さとうさんの単語の拾い出しのアイデアは面白いと思いますし、同様のことを私
>> もときどきつらつらと考えています。でも、単語にばらしてしまったら、かえっ
>> て特徴がわかりづらくなるのかな、という気もしています。

>
>  単語にばらす、というイメージがちょっとわからなかったのですが、どんな感
> じのイメージでしょうか。

形態素解析などでトークナイズしてその出現頻度を分析したり、統計的な手法で
連関性(という用語でいいのかな)を調べてみる、といったことです。

たとえば私のサンプルルールセットでは、「だんせい」、「じょせい」、「であ
い」(ホントは漢字だけどあえてひらがなで書いてます)の単体には低いスコアし
か与えていませんが、「これらが全部出現したら」というMETAルールに高いスコ
アを与えています。

こういったことは経験的にやっているのですが、多少科学的(?)な裏付けにもと
づいて判断できれば効率が上がるんじゃないかと思っているのです。

さとうさんは(もうひとつの)ベイズフィルタを分析ツールにと考えておられるよ
うですが、私はまだどんなツールが考えられるのか、そこまで至っていないです。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
★ ブログを始めました http://blogs.itmedia.co.jp/ossway/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年10月31日 23:43
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48526
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。