2006年11月 1日

[SpamAssassin-JP 448] Re:ルールセットのベイジアンフィルタでの学習(Re: ルールセットについて)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
oki です。

> 形態素解析などでトークナイズしてその出現頻度を分析したり、統計的な手法で
> 連関性(という用語でいいのかな)を調べてみる、といったことです。
>
> たとえば私のサンプルルールセットでは、「だんせい」、「じょせい」、「であ

> い」(ホントは漢字だけどあえてひらがなで書いてます)の単体には低いスコアし
> か与えていませんが、「これらが全部出現したら」というMETAルールに高いスコ
> アを与えています。
>
> こういったことは経験的にやっているのですが、多少科学的(?)な裏付けにもと
> づいて判断できれば効率が上がるんじゃないかと思っているのです。
>
 話を聞いていて、こんなプラグインもありかな?と思いました。
日本語の場合、幸い形態素解析で、名詞・動詞・助詞・・・等に分類されます。
スパムとしての特徴が現れるのは、名詞の部分が主だと思われるので

 1.日本語ベイジアンのDBから、頻度の高い名詞というカテゴリの
  ワードを抽出するツールを作成する。(ツールの作り方では、人間が
  それらの候補からワードを選択し、別DBに登録できるようにするか、
  自動で登録するの2通り…自動は、ちょっと辛いかな?)

 2.(1.)のツールから抽出されたワードをカウントするプラグイン
  カウントは、
    a) 単純にワードが出現した回数
    b) 種類が出現した回数
が取得できる。

  cf ファイルにて、この回数に応じて、スコアを付加する。

場合によっては、前後原稿用紙1枚分の間に出現した最高回数と
するような工夫が必要になるかもしれません。

#日本語の場合は造語を作りやすそうなので、
#案外、辞書のメンテナンスが必要になる
#というオチだったりして…

 まぁ、でも組み合わせのルールを作成するよりは、クリティカル
ワードの回数による評価というプラグインがあってもいいのかも?

#と、ここまで書いておいて、Perl わかんねーですorz...


--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年11月 1日 19:13
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48667
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。