2009年1月26日

[Namazu-users-ja 1143] Re:pdfのタイトルで検索をしたい

寺西です。

森田 光貴 wrote:
>
> Namazuが2.0.16なのですが、サーバーの関連でupgradeできません。(借り物でして

現在、リリースバージョンの Namazu は 2.0.18 以外の選択肢はありません。
バージョンアップできない理由があるからといって、古いバージョンの

Namazu を使うべきではありません。
新しいバージョンの Namazu が使える環境でご利用ください。
バージョンアップが不可能ならば、Namazu を使わないことも考慮すべきです。

繰り返しますが、古いバージョンの Namazu は使うべきではありません。

> 紙媒体を取り込んだものが多いので、pdfファイルが多いのですが
> pdfファイルのタイトルでの検索を行おうとしていますが
> どうすればいいかわからない状態です。

用件が
1. PDF のみを対象としたい
2. タイトルを検索したい
の2つでしょうか。

1 はいろいろと方法はあります。ひとつはフィールド検索で URI に pdf
が含まれるものを検索する方法や、インデックスを作る際に pdf だけの
インデックスを作り、検索時にそのインデックスを指定する方法です。

2 はフィールド検索で、タイトルを検索すれば良いだけです。

+title:レベニンR

とか。

> ・サーバー
> Red Hat Enterprise Linux ES release 4 (Nahant Update 4)
> Kernel 2.6.9-42.0.3.ELsmp on an x86_64
...
> ・mknmz -C
> システム: linux
> Namazu: 2.0.16
> Perl: 5.006000
> File-MMagic: 1.25
> NKF: module_nkf
> KAKASI: module_kakasi -ieuc -oeuc -w
> 茶筌: no
> 和布蕪: no
> わかち書き: module_kakasi -ieuc -oeuc -w
> メッセージの言語: ja_JP.SJIS

Linux で ja_JP.SJIS を選択してはいけません。
EUC-JP 系をお使いください。

> ・タイトルに『レベニンR等』と記載している2009012601.pdfというファイル
> にpdfinfoを実行
>
> Title: R

pdfinfo に -enc オプションを指定するとタイトルも取り出せます。
また、Namazu の pdf フィルタではそれを使って取り出しています。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja


投稿者 xml-rpc : 2009年1月26日 20:16
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/81503
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。