2009年2月25日

[Namazu-devel-ja 1775] Re:Namazu 2.0.19 pre1 公開

寺西です。

Takahiro Kambe wrote:
>
> > $ wvWare --charset=EUC-JP tests/data/ja/word6.doc > word6.html
> >
> > で出力した word6.html はどんな感じになっていますかね?
>

> ----------------------------------------------------------------
>
> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
> <html>
> <head>
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
> <META NAME="GENERATOR" CONTENT="wvWare/wvWare version 1.2.5">
> <title>
> 〓〓〓〓〓
> </title>

タイトルの文字もゲタに変換されていますか...。

> <p><div name="〓W〓〓" align="left" style=" padding: 0.00mm 0.00mm 0.00mm 0.00mm; ">

ここの name は wvWare 1.0.3 ではコード変換されなかったので良いと
しても

> <p style="text-indent: 0.00mm; text-align: left; line-height: 4.166667mm; color: Black; background-color: White; ">
>
> </p></div>

まったく抽出されてませんね。
Word8 形式と異なり、Word7 形式では Shift_JIS コードでファイルの中に
入っているので、この抽出、コード変換で問題が生じているのかも
しれません。

$ wvWare --charset=Shift_JIS tests/data/ja/word6.doc > word6.html

とやっても同じ結果でしょうか?

> > パッケージではなくソースから素の wvWare 1.2.5 をインストールしても
> > 同様なら、wvWare 1.2.5 は Word7 未対応ということになりますので、
> おそらく、pkgsrcでインストールされたライブラリに依存させる他は特別なパッ
> チは当たっていないので、素でインストールしても変わらない気がします。

wvWare の 1.0.3 から 1.2.5 までの間の修正で何か不具合が生じたのかも
しれません。
# 1.2.5 のソースをちょっと見ただけでは WORD7 用の処理も含まれては
# いたのですが。

> > > > $ pdftotext -enc EUC-JP tests/data/ja/acrobat4.pdf -
> > > % pdftotext -enc EUC-JP tests/data/ja/acrobat4.pdf -
> > > Error: Couldn't find unicodeMap file for the 'EUC-JP' encoding
> > > Error: Couldn't get text encoding
...
> > パッケージに問題ありですね。
> > # 過去にはFreeBSD のパッケージにも問題があったけど
> こちらはわかりました、確かにパッケージに問題ありです。
>
> 簡単に言えば、ソースからパッケージをインストールした場合は良いのです
> が、バイナリ・パッケージでインストールするとダメダメです。:-(

ご愁傷様です。
パッケージがダメダメなのは困りものですな。
# Namazu の fedora の RPM もダメダメで困りものですが...。

で、たぶん Namazu の make check が通らないのは、これら wvWare,
xpdf(pdftotext) が原因でしょう。
2.0.19pre1 でなくても、2.0.13 以降の全てのバージョンでも同じように
make check は通らないものと思います。

> - Namazu 2.0.18 でも同じように生じる不具合に関しては、致命的な
> ものでない限り、2.0.19 で修正することは見送ります。
> (2.0.19 のリリースを優先します。)

という方針ですので、本件が解決しないとしても 2.0.19 のリリース
はそのまますすめます。ご了承ください。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja


投稿者 xml-rpc : 2009年2月25日 01:15
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/82454
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。