2006年9月22日

[Namazu-devel-ja 1253] Re: ptknamazu

寺西です。

NOKUBI Takatsugu wrote:
>
> > というところで、アイディア募集中です。
>
> いっそ他のDBを使うのはどうでしょうか。例えばBerkeley DBなら元のパス
> をキーにgzipしたコンテンツをデータとして持たせることは可能です。OSによ

> るファイルサイズの壁があっても複数ファイルに分割してくれるので、かなり
> いい感じに使えると思います。

Berkeley DB を使うというのも手ではありますね。

自前で用意するのではなく、何らかのDBを使うとすると、DBの要件としては
こんなものでしょうか。

・数GBクラスのデータが扱えること
・バイナリデータが扱えること(gzip 化は自前でやるとして)
・レコードサイズに制限がないこと
・Windows, Mac を含めて多くのプラットフォームで利用できること
・プラットフォーム間でDBファイルが共通であること(バイトオーダーを含め)
・導入が手軽であること
・ライセンスが GPL2 と矛盾しないこと
・Perl と C から利用できること

欲を言えば
・ロックができること
・UTF-8 対応であること

アプリケーションからの要求は
・文書ファイルパスと文書IDの対応付け (NMZ.i, NMZ,ii に相当)
・単語と文書IDのリストの対応付け (NMZ.w, NMZ.wi に相当)


SQLite という手もあるかもしれません。単一のファイルではありますが、
2テラバイトまで使用可能なら、中小規模の Namazu なら大丈夫そうです。

# 私はDB屋さんではないので、全然詳しくないのですけど...。

> すが... 新しすぎるBDBはちょっとだけ不安定(たまに壊れる。けどほとんどの
> 場合はdb-recoverで直る)なのが困り者ではあります。

ん〜、それは困るかも。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年9月22日 13:32
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/46296
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。