2006年3月27日

[SpamAssassin-JP 133] Re:分かち書き処理が必要な言語

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
久保です。

> ということは下手にi18n的に処理するよりは完全にl10nとして処理した方がシンプル
> でよいということです。コアな部分では分かち書き処理のコードを最小にしなければ
> いけません。

各国語固有の課題として、当然のことながら、我々は分かち書きのことを重要視
しています。他の課題が他の言語にあるのかもしれないと思います。

たとえばドイツ語は複数単語をくっつけてひとつの複合単語をどんどん作り出せ
る言語だったと思います(数十年前に勉強しただけ....)。分かち書きに似た何か
のしくみが必要なのかもしれません(実際不要なのかもしれませんが)。

また分かち書きの手法も、辞書や文法の違いがあって、国語ごとに違う実装が必
要なんじゃないかと思います。

だから、個々の処理はl10nの範疇で扱う方がいいんじゃないでしょうか。

(0) normalizeする設定になっていたら、l18n的にUTF変換する
(1) 言語をguessする
(2) その言語に対するl10nルーチン(plugin)があったら実行する。なかったら何
もしない。
(3) その結果をnbody (仮称)ルールのソースとして使う

というのがわかりやすく受け入れられやすいように思いますが、どうでしょう。

--
----------------------------------------------------------------------
久保 元治 (株)サードウェア
Motoharu Kubo 274-0815 千葉県船橋市西習志野3-39-8
mkubo@xxxxx URL: http://www.3ware.co.jp/
Phone: 047-496-3341 Fax: 047-496-3370
携帯: 090-6171-5545/090-8513-0246
★弊社からのメールはZ-Linuxメールフィルタで全数検査しています★
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年3月27日 11:51
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41099
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。