2009年2月24日

[Namazu-devel-ja 1771] Re:Namazu 2.0.19 pre1 公開

寺西です。

Takahiro Kambe wrote:
>
> In message <20090223.025215.30175909.taca@xxxxx>
> on Mon, 23 Feb 2009 02:52:15 +0900 (JST),
> Takahiro Kambe <taca@xxxxx> wrote:
> > > どこかで書き換わってしまったのでは?

> > そのようです。
> この辺りは、思い出しました。たいへん、お騒がせしました。
>
> 取り敢えず、現時点までの結果を送ります。
>
> ====================
> 6 of 50 tests failed
> ====================

ログを調べると

tests/data/ja/word6.doc [application/msword]
tests/data/ja/word95.doc [application/msword]

からのテキストの抽出に失敗しているようでした。

mknmz -C の結果から

application/msword: msword.pl

なので、filter/msword.pl での処理に問題があるということです。
ところで、word6.doc, word95.doc は

$ wvVersion tests/data/ja/word6.doc
Version: word7, Encrypted: No

$ wvVersion tests/data/ja/word95.doc
Version: word7, Encrypted: No

の結果から Word7 形式のファイルです。
Word7 形式のファイルのみ処理が失敗するという理由はいろいろ考えられ
ますが手元の環境では問題ないので、wvWare のバージョンに依存する問題
ではないかと思います。とりあえず

$ wvWare --version

の結果と

$ wvWare --charset=EUC-JP tests/data/ja/msword6.doc | grep Namazu

の結果をお知らせください。


それとは別に

3/60 -
/data/work/textproc/namazu/work.edge/namazu-2.0.19pre1/tests/data/ja/acrobat3.pdf
Unable to convert pdf file (maybe copying protection)
3/59 -
/data/work/textproc/namazu/work.edge/namazu-2.0.19pre1/tests/data/ja/acrobat4.pdf
Unable to convert pdf file (maybe copying protection)

となっています。
これもおそらくは pdftotext のインストールのミスかと思います。
日本語言語パッケージがインストールされていないとか、フォントのイン
ストールのミスとかでしょう。

$ pdftotext -enc EUC-JP tests/data/ja/acrobat4.pdf -

の結果はどうなりますか?
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja


投稿者 xml-rpc : 2009年2月24日 02:30
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(1)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/82449
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。