2006年3月27日

[SpamAssassin-JP 147] Re:分かち書き処理が必要な言語

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

On Mon, Mar 27, 2006 at 09:30:16AM +0900,
堀田 倫英 wrote:

> > 日本語と中国語以外で分かち書き処理が必要な言語がありましたら誰

> > か教えてください。なければハードコーディングとまで行かなくても
> > 日本語と中国語をターゲットとした処理を書きます。
>
> 私が知る限りでは、タイ語は日本語と同様に分かち書きが必要な言語で
> す。単語の区切りがわからないと辞書も引けません;-)

> アルファベットを基本とするベトナム語やインドネシア(マレー)語は
> スペースで単語を区切るようですが、いわゆるみみず文字系には区切り
> がないものが結構ありそうな気がします。

情報提供ありがとうです。
とりあえず、特定の言語向けの処理はやめるようにします。


On Mon, Mar 27, 2006 at 11:51:23AM +0900,
Motoharu Kubo wrote:

> > ということは下手にi18n的に処理するよりは完全にl10nとして処理した方がシンプル
> > でよいということです。コアな部分では分かち書き処理のコードを最小にしなければ
> > いけません。

> だから、個々の処理はl10nの範疇で扱う方がいいんじゃないでしょうか。

当然、分かち書きの個々の処理はl10nですが、コアにある言語判定処理のコードが
大きくなるのはどうなのかというのが気になっていたのです。
言語判定処理をまじめに書くとTextCatプラグインと同じことができます。
しかも言語によってはTextCatより精度が高いです。
となると変な欲が出てきて本筋から離れていきそうな私です。
言語判定処理はプラグインにした方がよいのか、コアに書くべきか。

> (0) normalizeする設定になっていたら、l18n的にUTF変換する
> (1) 言語をguessする
> (2) その言語に対するl10nルーチン(plugin)があったら実行する。なかったら何
> もしない。
> (3) その結果をnbody (仮称)ルールのソースとして使う
>
> というのがわかりやすく受け入れられやすいように思いますが、どうでしょう。

手元のコードではこの処理を実際行っています。
言語判定処理を書いている最中に何か疑問というかそういう状態に陥ったので
質問というか問いかけてみました。

--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年3月27日 22:53
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41124
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。