2007年7月14日

[SpamAssassin-JP 589] Re:PDF spam 対策

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
山口です.

属に言う PDF spam ですが,例えばこの ML に送信しているアドレスに絞って,
どのような傾向があるのか纏めてみました.

とにかく観測拠点とサンプル数を増やさないことには,確度を上げられないの

ですが,手元のサンプルから判断できそうなのは

・plain text が含まれない
・letter, A4 などの定型サイズでない
・最適化されていない
・pdftotext, pdfinfo にかけると,PDF ファイルが損傷していると言われる

というものが大半です.

今のところ,PDF spam の例として世間で紹介された事もある,株価操作を目
的とした spam は,アプリケーション + Ghostscript の組み合わせで PDF を
生成していました.

既に SpamAssassin 開発チームでも PDF spam 対策が始まっているのかもしれ
ませんが,アタッチメントの判定エンジンを構成するには PDF の判定条件の
検討が先決かなと思います.

ということで,先ずは情報提供のつもりです.

> 基本的に,「まだ」PDF の中身は「画像だけ」で,GIF spam の代替の傾向が
> 強いと思います.
> 小生は,PDF をツールで判読する事で spam の判定度を上げてみています.

xpdf の pdftext を通すと,次のような結果になります.

PDF spam の数, テキスト抽出不可(*1), テキスト抽出可(*2)
31, 27, 4

*1 viewer で見ると,画像データが見られるのですが,pdftotext や pdfinfo
にかけると,全数

Error: PDF file is damaged - attempting to reconstruct xref table...

というものが出ます.
Acrobat, Ghostscript で生成した PDF では,今のところ,このような
エラーは見かけたことがありません.

*2 次のようなパターンを確認しました
- plain text, xml text, pdf, AVG certification 付で
MS Word + Ghostscript 8.15 で生成した模様(letter size)
- PDF のみで
OpenOffice 1.1.4 + Ghostscript 7.07 で生成した模様(letter size)
株価操作目的の spam
- PDF のみで
PDFCreator 2.0.4 + Ghostscript 8.54 で生成した模様(letter size)
株価操作目的の spam
- plain text 付き,MIME Multipart のでき損ない(single part)
MS Word + Ghostscript 8.15 で生成した模様(letter size)
1目の Author,Creator と同じ

ちなみに,pdfinfo でサイズ等の情報取得を試みると,*1 のものは次の
ような具合いになります.

| Error: PDF file is damaged - attempting to reconstruct xref table...
| Tagged: no
| Pages: 1
| Encrypted: no
| Page size: 357 x 164 pts
| File size: 13796 bytes
| Optimized: no
| PDF version: 1.3

ページサイズから,比較的小さな画像のみによるものと類推ができます.

俗に言う PDF spam とは性格が異なると思われ,添付ファイルとして PDF を
含んだ spam だと次のような例があります.(上の PDF spam には計上してい
ません)

| Title: Microsoft Word - Summer school_Russian.doc
| Author: <C0E4ECE8EDE8F1F2F0E0F2EEF0>
| Creator: PScript5.dll Version 5.2
| Producer: Acrobat Distiller 5.0 (Windows)
| CreationDate: Fri Mar 23 09:39:34 2007
| ModDate: Fri Mar 23 09:39:34 2007
| Tagged: no
| Pages: 1
| Encrypted: no
| Page size: 595 x 842 pts (A4)
| File size: 166529 bytes
| Optimized: yes
| PDF version: 1.3

spam の送信ツールの比較も行わないと断定は難しく,たまたま同一の
spammer か,同一のツールから送信されるものしか受信できていないのかも
しれませんが,
今のところは大半の PDF spam の属性としては,ほぼ同一のものの傾向
があります.(多分 PDF の生成ツールが同じ)

Title, Author, Creator, Producer 等の属性も,埋め込もうと思えば
任意のものを埋め込んで偽装できるとは思いますが,Ghostscript などの
著名なフリーソフトで中身を微妙に変えたものが当たり前に出回ると,
Producer を除外して判定するなどの注意が必要かなと思います.
# Optimize の yes/no も pdfopt で操作できますね.

-- Eisaku YAMAGUCHI
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月14日 15:12
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61586
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。