2006年5月28日

[SpamAssassin-JP 263] Re:SpamAssassin-3.1.1日本語対応パッチ(案、その2)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

>> o 改行で分割された単語がつながってくれる。「出<改行>会い」というケースで
>> も見逃さなくなる。
>
> これに関してはその3で対応できています。

> normalize時に漢字で終わって次の行が漢字で始まる場合は改行コードを取り除く
> ようにしています。

了解です。

>> たとえば「人情」という単語を検出したい場合、トークナイズしなければ「個
>> 人情報」もマッチしてしまうが、トークナイズすれば「個人<スペース>情報」
>> となるためにマッチしなくなる(辞書に「個人情報」が登録されていないなら
>> ば)。
>
> これに関しては英語でも同様な問題が生じる可能性があります。
> 無理矢理な例を出しますと、/sex/ は 'sextet' でもマッチします。
> まあ、/\bsex\b/とすればよいだけなのですが。
>
> 意図しない単語にマッチしてしまうことは十分にあり得ることですが、
> 実運用上は一つのルールに大きなポイントを付けなければ問題ないと認識しています。
> "required_score 5"に対して1ポイントくらいが誤って付いたところで問題ないです。
> required_scoreを超えるようであればそれなりの単語がたくさん含まれていたり、
> ベイズのポイントが高かったりするということですから。
> ボディのルールに関しては小さなポイントの積み重ねで判断するのが肝だと思います。
> # というか大きいポイントを付けるのは怖いです。

よく考えてみました。私も基本的には瀧澤さんのお考えに同意します。nbodyで
はわかち書きしない、というのでいいだろうと思います。ただ、

> 私の考えでは、分かち書きは縁の下の力持ちであって表に出てくるべきものでは
> ないです。そのため、ユーザに分かち書きのことを考慮させるべきではないです。
> ユーザに職人芸的なものを求めてはいけませんし。
> # 正規表現を書くこと自体が職人芸と言えば職人芸。
> # ReplaceTagsプラグインは何気に職人芸を要求されますが。
>
>> dev MLでも議論になった点なのですが、私は意図しないマッチを減らすために、
>> トークナイズする方が望ましいと思っています。
>>
>> トークナイズしないテキストに対するテスト(nbody)、トークナイズしたテキス
>> トに対するテスト(たとえばntbody)という2とおりのテストを用意する、という
>> 対処もありえると思いますが、そのことの是非も含めて検討が必要ですね。
>
> ここら辺の話はまだ議論が必要だと思います。

より職人芸的に取り組める余地を用意するという意味で、ntbodyがあってもいい
のかな、という気持ちは捨てがたいところがあります。

get_visible_rendered_normalized_body_text_array
get_invisible_rendered_normalized_body_text_array

に加えて

get_visible_rendered_normalized_tokenized_body_text_array
get_invisible_rendered_normalized_tokenized_body_text_array

を作り、nbodyのテストルーチンと同様にntbodyのテストルーチンを追加する、
ということになりますね。

運用するときには、使う形態素解析プログラムや辞書に依存することを十分に意
識すべきですし、ユーザ会版ルールセットなどではこのテストは原則として使わ
ないような配慮がいると思いますが。

ちょっと職人芸にツッコミすぎかな。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
★ ブログを始めました http://blogs.itmedia.co.jp/ossway/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年5月28日 18:17
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/40082
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。