2009年2月25日

[Namazu-devel-ja 1773] Re:Namazu 2.0.19 pre1 公開

寺西です。

Takahiro Kambe wrote:
>
> > $ wvWare --version
> >
> > の結果と
> % wvWare --version

> wvWare 1.2.5

http://sourceforge.net/project/showfiles.php?group_id=10501

だと 1.2.4 が最新のようですが、1.2.5 はどこ由来なんでしょうね。

> > $ wvWare --charset=EUC-JP tests/data/ja/msword6.doc | grep Namazu
> >
> > の結果をお知らせください。
> % wvWare --charset=EUC-JP tests/data/ja/word6.doc |grep Namazu
>
> 出力は何もありませんでした。これは pkgsrc の wv-1.2.5パッケージに由来
> するものです。

となるとパッケージの問題ですかね。
この wvWare が Word7 形式のファイルからテキストを正しく抽出できてい
ないのが原因です。

$ wvWare --charset=EUC-JP tests/data/ja/word6.doc > word6.html

で出力した word6.html はどんな感じになっていますかね?

パッケージではなくソースから素の wvWare 1.2.5 をインストールしても
同様なら、wvWare 1.2.5 は Word7 未対応ということになりますので、
Namazu 側で処理しないように機能を殺すという対処はできます。

が、現状ではパッケージの問題か、wvWare 側の問題か不明です。
どなたか、他の環境で wvWare 1.2.5 を使われている方はいませんかね?

# 手元の環境は libgsf-1 パッケージの依存関係のため、wvWare 1.0.3 まで
# しかインストールできないので確認できる環境ではないです。

> > これもおそらくは pdftotext のインストールのミスかと思います。
> > 日本語言語パッケージがインストールされていないとか、フォントのイン
> > ストールのミスとかでしょう。
> >
> > $ pdftotext -enc EUC-JP tests/data/ja/acrobat4.pdf -
> % pdftotext -enc EUC-JP tests/data/ja/acrobat4.pdf -
> Error: Couldn't find unicodeMap file for the 'EUC-JP' encoding
> Error: Couldn't get text encoding
>
> こちらはpkgsrcのxpdf-3.02pl2とxpdf-japanese-20040727にをインストールし
> た状態です。

パッケージに問題ありですね。
# 過去にはFreeBSD のパッケージにも問題があったけど

日本語言語パッケージを正しくインストールすると、/usr/local/etc/xpdfrc に

unicodeMap EUC-JP /usr/local/share/xpdf/japanese/EUC-JP.unicodeMap

等が追加されるはずです。
それがないと、上記のエラーが発生します。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja


投稿者 xml-rpc : 2009年2月25日 00:00
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/82452
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。