2007年7月14日

[SpamAssassin-JP 591] Re:PDF spam 対策

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
山口です.

From: MATSUDA Yoh-ichi / 松田陽一 <yoh@xxxxx>
Subject: [SpamAssassin-JP 590] Re: PDF spam 対策
Date: Sat, 14 Jul 2007 17:33:16 +0900 (JST)
>

> こんにちは。松田陽一@三鷹です。
>
> From: Eisaku YAMAGUCHI <eisaku@xxxxx>
> Subject: [SpamAssassin-JP 589] Re: PDF spam 対策
> Date: Sat, 14 Jul 2007 15:12:04 +0900 (JST)
>
> > 既に SpamAssassin 開発チームでも PDF spam 対策が始まっているのかもしれ
> > ませんが,
>
> 本家 ML では先月頃から活発に議論されています。

情報ありがとうございます.

> (2) PDFText.pm というものを開発した人が出て来ました。
>
> http://support.ednet.ns.ca/SpamAssassin/PDFText.pm

台風が迫る中,今から再出勤しようかというところなので... orz
軽く斜め読みしてみました.

Perl に PDF を扱うモジュールがあるのか否かは調べていないのですが,
PDFText.pm では,やはり小生が行っていたのと同様の xpdf の pdftotext と
を使っているようです.

そうすると,基本的な考え方は同じ... ということですかね.

但し,PDFText.pm の作者は text が含まれていた場合の multibyte codef
とかの Encoding の事を考えていなくて,-enc オプションとかを使わず
抽出していました.(default は Latin1)
locale 判定ができると良いのですが,内部が既に UTF-8 なので...
純 SpamAssassin 的には,"-enc UTF-8" になるでしょうか.

pdftotext, pdfinfo 共に "-enc UTF-8" オプションで UTF-8 に変換して出力
が得られるので,早期に多国語対応を埋め込んでおいた方が良いかと思います.

また,xpdf としては各国語に対応させるためには,フォントセット情報
などを整備しておかないといけないので,xpdf のインストールの HowTo
とかも要るかもしれません.

xpdf のサイトでは,binary package とあわせて,幾つかの言語への対応
パッケージも用意されているので,binary package が好きな方はそちらを
そのままいただいてしまうのがお手軽かと思います.

c.f. http://www.foolabs.com/xpdf/

取り敢えず,直感的な感想ですが,ML に参加もしてない状況なので,
参考までに.

-- Eisaku YAMAGUCHI
--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2007年7月14日 21:25
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/61641
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。