2006年3月27日

[SpamAssassin-JP 130] Re:分かち書き処理が必要な言語

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
堀田@長崎市と申します。

On Sun, 26 Mar 2006 22:28:53 +0900, TAKIZAWA Takashi wrote:
Subject: [SpamAssassin-JP 129] 分かち書き処理が必要な言語

> 日本語と中国語以外で分かち書き処理が必要な言語がありましたら誰

> か教えてください。なければハードコーディングとまで行かなくても
> 日本語と中国語をターゲットとした処理を書きます。

私が知る限りでは、タイ語は日本語と同様に分かち書きが必要な言語で
す。単語の区切りがわからないと辞書も引けません;-)

ちょっと調べてみた限りでは、同じクメール語系のラオス語やカンボジ
ア語も同様の感じでした。

タイ語
http://ja.wikipedia.org/wiki/%E3%82%BF%E3%82%A4%E8%AA%9E

ラオス語
http://www.tufs.ac.jp/common/fs/ase/lao/

たとえば、ここにある「sabaaj dii」は2つの単語です。

カンボジア語(クメール語)
http://www.geocities.jp/korochibihome/khmer/useful/tripkhmer/trip2.pdf

アルファベットを基本とするベトナム語やインドネシア(マレー)語は
スペースで単語を区切るようですが、いわゆるみみず文字系には区切り
がないものが結構ありそうな気がします。

--
HOTTA Michihide
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年3月27日 09:30
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41093
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。