2006年3月26日

[SpamAssassin-JP 129]分かち書き処理が必要な言語

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

土日共に日中寝落ちしたため作業が順調に遅れています。ダメダメです。

On Wed, Mar 22, 2006 at 12:49:05AM +0900,
TAKIZAWA Takashi wrote:


> > > - 分かち書きはプラグインで有効になるようにする。
>
> > ただ、日本語の場合はTokenizerMeCab/Kakasiでいいですが、これも組み込んだ
> > 上で中国語だったら(将来だれかが作るかもしれない)中国語独自の処理プラグイ
> > ンも組み込めて、言語によりそれらが使い分けられる、という構造にしておくべ
> > きだと思います。まだ詳しく見ていないので、すでに考慮ずみだったら言わずも
> > がなのコメントかもしれません。
>
> 手元のコードでは言語毎のプラグインを追加できるように修正しました。
> 言語の特定を行う必要があるので、そのメソッドを作成している最中です。
> CJKだけの対応なら出来ているのですが、さらに一般性を持たせたいので
> 結構面倒。

分かち書き処理が必要な言語を簡単に調べてみた範囲では、日本語と中国語だけ
しか見つかりませんでした。
韓国語(ハングル)が分かち書きされているのを今更ながら知りました。不勉強です。
ということは下手にi18n的に処理するよりは完全にl10nとして処理した方がシンプル
でよいということです。コアな部分では分かち書き処理のコードを最小にしなければ
いけません。

日本語と中国語以外で分かち書き処理が必要な言語がありましたら誰か教えてくだ
さい。なければハードコーディングとまで行かなくても日本語と中国語をターゲット
とした処理を書きます。

--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年3月26日 22:28
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41085
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。