2006年10月30日

[Namazu-users-ja 927] Re: Unicode(UTF-8)の使用

臼田です

On 2006/10/28, at 12:47, 田中 wrote:

>
> NamazuでUTF-8を使用してインデックス作成、検索を行いたい
> と思います。
> 現在の安定版ソースコード(Namazu2.0.16)でUTF-8は

> 使用可能でしょうか?
> どなたかご教示いただけないでしょうか?
>
> OSはCentOSを使用しており、文字コードはUTF-8です。
> 検索対象のファイルはExcel、Word、PDF、
> PPT、テキストファイルを考えて
> おります。

質問だけでは utf-8 をどこに使用することを
考えているのかよくわかりませんが

テキストファイルの文字コードに utf-8 が
使用されているということであれば
Namazu2.0.16 でも利用できます。
http://www.namazu.org/FAQ.html#utf-8
ただし、安定版では内部で euc-jp に変換
することになるので euc-jp 範囲外の文字
が使われているのであればその文字は欠落
します。


また、端末の文字コードを utf-8 のままで
使用したいということであれば
インデックス作成時には
$ mknmz [options] 対象ディレクトリ | nkf -w

とするとか

検索時には

#!/bin/bash
query=`echo $1|nkf -e`
/usr/local/bin/namazu $query $2 | nkf -w
といったスクリプトを作成して namazu への入出力時

の文字コードを変更するようにすればそれなりに使えます。


>
> Namazuの構成部品のバージョンは下記のものを使用しています。
> Perl: v5.8.5
> nkf: 2.0.5
> KAKASI: 2.3.4
>
> また、文書フィルタにxlhtml、wvWare、xpdfの使
> 用を考えていますが、
> それぞれの部品に必要なバージョンなどあるでしょうか?

多少古いバージョンでも動作はしますが
特に理由がないのであればそれぞれ最新のバージョンを
使用することをおすすめします。

臼田幸生

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2006年10月30日 23:34
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/48541
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。