2006年8月12日

[SpamAssassin-JP 347] Re:ロシア語と中国語

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
こんにちは。松田陽一@三鷹です。

From: TAKIZAWA Takashi <taki@xxxxx>
Subject: [SpamAssassin-JP 346] ロシア語と中国語
Date: Sat, 12 Aug 2006 18:36:10 +0900

> 滝澤です。
>
> On Sat, Aug 12, 2006 at 11:41:58AM +0900,
> MATSUDA Yoh-ichi / 松田陽一 wrote:
>
> > 中国語とロシア語の文字セットに引っかかってしまいますが、
> > こんなものは如何でしょう。
> >
> > body SJIS_C /(([\x81-\x9f\xe0-\xfc][\x40-\x7e\x80-\xfc])(?!([\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf][\x80-\xbf]|[\xa1-\xfe][\xa1-\xfe]))){7,}/
> >
> > # こいつをどうにかして精度を上げたいんですが、中国語と
> > # ロシア語の文字コード表、どっかにないでしょうか?
>
> ロシア語についてはここが参考になります。
> http://czyborra.com/charsets/cyrillic.html

有難うございます。
眺めてもさっぱりわからないんでぐぐってみたら、日本語な文書を
見つけました。

http://www.linux.or.jp/JM/html/LDP_man-pages/man7/koi8-r.7.html

これを見る限り、0x80以降のコードを全部使っていることから、判
別はほぼ無理と判断しました。(泣)

> 中国語については書籍での資料は手元にあるのですが、ネットでの資料に関しては
> ググってみたら次のページが見つかりました。
> http://ash.jp/code/code_zh.htm

有難うございます、これはいい資料ですね。

SJIS -> [\x81-\x9f\xe0-\xfc][\x40-\x7e\x80-\xfc]
GB2312 -> [\xA1-\xFE][\xA1-\xFE]

手元で色々試してみましたが、やっぱり複数行見ないと駄目っぽい
です。
--
日本語spam展示博覧会開催中
http://www.flcl.org/~yoh/spam/jp/
松田 陽一(yoh)
mailto:yoh@xxxxx
http://www.flcl.org/~yoh/diary/
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年8月12日 19:19
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/43884
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。