2006年4月 9日

[SpamAssassin-JP 194] Re:分かち書き処理が必要な言語

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

On Sun, Apr 02, 2006 at 11:38:26PM +0900,
TAKIZAWA Takashi wrote:

> 言語判定処理をモジュール化してみました。


> CharsetUtil.pm と langtest.pl を同じディレクトリにおいて標準入力から
> 文章を投入すると文字エンコーディングと言語を判定して表示します。
> 引数にcharsetを指定すると、マルチバイト文字でなければ、そのcharsetの
> 言語を表示します。マルチバイト文字の場合は文字エンコーディングの解析
> 結果を優先します。
>
> 今のところ UTF-8 の場合の言語判定処理ができていません。

UTF-8の場合の言語判定処理を追加しまたものを20060409バージョンとして次の
場所に置きました。
http://www.emaillab.org/spamassassin/
引数にcharsetを指定した場合にはcharsetを優先的に用いて判定するように変
えました。

UTF-8の場合は2,3倍のオーバーヘッドが生じています。
ラテン文字の判定性能は悪いです。
というか判定を文字コード変換に頼っている限りは正しい判定はほぼ無理です。
最終的にはTextCatプラグインの判定結果と組み合わせて用いるのがよいのかな
と思います。
まあ、ラテン文字の判定が悪くても分かち書きを目的としたものなので実質的に
問題ないですが。

--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年4月 9日 20:48
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41235
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。