2006年4月 2日

[SpamAssassin-JP 179] Re:分かち書き処理が必要な言語

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

サンデープログラマーなので亀のような歩みで開発しています。
対応が遅くて済みません。

On Mon, Mar 27, 2006 at 10:53:54PM +0900,

TAKIZAWA Takashi wrote:

> 当然、分かち書きの個々の処理はl10nですが、コアにある言語判定処理のコードが
> 大きくなるのはどうなのかというのが気になっていたのです。
> 言語判定処理をまじめに書くとTextCatプラグインと同じことができます。
> しかも言語によってはTextCatより精度が高いです。
> となると変な欲が出てきて本筋から離れていきそうな私です。
> 言語判定処理はプラグインにした方がよいのか、コアに書くべきか。

言語判定処理をモジュール化してみました。
次のURLの「文字エンコーディング・言語判定スクリプト」に置いておきます。
http://www.emaillab.org/spamassassin/

CharsetUtil.pm と langtest.pl を同じディレクトリにおいて標準入力から
文章を投入すると文字エンコーディングと言語を判定して表示します。
引数にcharsetを指定すると、マルチバイト文字でなければ、そのcharsetの
言語を表示します。マルチバイト文字の場合は文字エンコーディングの解析
結果を優先します。

今のところ UTF-8 の場合の言語判定処理ができていません。
アイデアはあるのですが、オーバーヘッドが生じるのでどうやったら効率が
よいかこれから試行錯誤します。

本筋ではないところで時間がかかっていますが、日本語以外にも対応させる
ためには必要な処理ということで。

--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年4月 2日 23:38
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41189
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。