2007年7月14日

[SpamAssassin-JP 588]PDF spam 対策 (was PDF の spam)

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
山口です.

こちらの ML では書いていなかったようですので一つだけ...

From: Eisaku YAMAGUCHI <eisaku@xxxxx>
Subject: [SpamAssassin-JP 573] PDF の spam (was Re: 分かち書き手法で精度が変らないというレポート)

Date: Wed, 04 Jul 2007 21:16:00 +0900 (JST)
>
> 山口です.
>
> From: OKI Miyuki <oki@xxxxx>
> Subject: [SpamAssassin-JP 568] Re: 分かち書き手法で精度が変らないというレポート
> Date: Wed, 04 Jul 2007 10:09:46 +0900
> >
> > 沖です。
>
> > PS:最近、PDF スパムが出現したのかな?何通か抜けてるよ・・・。
>
> 昨今は増加傾向ですね.
>
> 画像のみの PDF spam とか.
> ちょっとだけ無難なメッセージを付けた PDF spam とか.

基本的に,「まだ」PDF の中身は「画像だけ」で,GIF spam の代替の傾向が
強いと思います.
小生は,PDF をツールで判読する事で spam の判定度を上げてみています.
# で,勿論 spam の確率が高いものも,false positive を防ぐためもあり
# 可能な限り検証してみている訳ですが...

既に,他の ML で書いているものですと

xpdf の pdftotext で text を抽出してみて,何も出て来なければ全部画像
の怪しいファイルと判断する確率を上げる

という手法があります.(経験則ですが)

普通の authoring software から PDF に変換した場合は,余程のことがなけ
ば,PDF に何らかのテキストが含まれていると思います.

今,ふと気付いたもので,PDF のセキュリティ機能で,text の抽出を抑制し
たものについては,どんな具合いになるのか確認が必要そうです.
# 大概は既知の相手からですので,score を下げる要素が多い筈...

でもまぁ...
SpamAssassin のように popular な soft が PDF 中のテキストを抽出し出す
と,spammer も対策しそうな訳で...


p.s.
GIF でなく JPEG only な spam への移行傾向もあるようですね.
非可逆圧縮である JPEG の方が binary data としてハッシュ値を変えやすい
ですし,非可逆故に少しだけ OCR に強い筈なので,予想されていた訳で... ;-)

-- EY
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月14日 06:37
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61572
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。