2006年3月22日

[SpamAssassin-JP 116]分ち書きについて

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

> 分かち書きの欠点は以前に書いたとおり、マッチさせたい言葉が分断されてし
> まうことがある点です。分かち書きも完璧ではない(辞書に依存する)ために、
> 新しい流行語・造語・略語などには対応できないという点があります。

たしかに、意図的にtypoを混入する(「未承諾」を「末(すえ)承諾」と書くなど)
ケースもありますから、辞書に依存するということ自体に限界もありますね。

> 分かち書きを考慮したルールを書くのはどのように分かち書きされるかを一度
> 試さないと行けないために少し手間になります。

分ち書きしたテキストに対してルールを書くことになるなら、たしかにどのよう
に分ち書きされるかを調べる支援ツールは不可欠になり、ちょっと面倒にはなり
ます。

> まあ、ルールの取り扱いやすさとfalse positive, false negativeのバランス
> をどうするかということなのですが。

我々の目的は、あくまで誤判定を最小化することですから、kakasiやMeCabの
ゴールと完全には一致しないかもしれません。あくまでひとつの可能性ですが、
別のトークナイズルーチンを作らなければならないのかな、とも今日考えていま
した。まだそういう結論を出すほど吟味しきったとは言えませんが。

また、分ち書きしない場合とした場合でテスト結果が異なる場合があるのかどう
か、実例にもとづいて検討する必要もあると思います。「支援交流」なんか思い
浮かべています。

# メールで実例を挙げすぎるとそのメールがスパムと判定されるリスクがありま
# す:-) Wikiを使えばいいかも。

----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545/090-8513-0246
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年3月22日 02:41
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41021
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。