2006年8月12日

[SpamAssassin-JP 346]ロシア語と中国語

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
滝澤です。

On Sat, Aug 12, 2006 at 11:41:58AM +0900,
MATSUDA Yoh-ichi / 松田陽一 wrote:

> 中国語とロシア語の文字セットに引っかかってしまいますが、

> こんなものは如何でしょう。
>
> body SJIS_C /(([\x81-\x9f\xe0-\xfc][\x40-\x7e\x80-\xfc])(?!([\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf][\x80-\xbf]|[\xa1-\xfe][\xa1-\xfe]))){7,}/
>
> # こいつをどうにかして精度を上げたいんですが、中国語と
> # ロシア語の文字コード表、どっかにないでしょうか?

ロシア語についてはここが参考になります。
http://czyborra.com/charsets/cyrillic.html

中国語については書籍での資料は手元にあるのですが、ネットでの資料に関しては
ググってみたら次のページが見つかりました。
http://ash.jp/code/code_zh.htm

--
TAKIZAWA Takashi(滝澤 隆史)
http://www.emaillab.org/

--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年8月12日 18:36
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/43882
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。