2006年4月18日

[Namazu-devel-ja 1036] Re: そろそろ Namazu 2.3.X 開発スタート

At Sat, 25 Mar 2006 01:34:28 JST,
Tadamasa Teranishi wrote:
> Namazu 2.0.16 のリリースが終え特に問題もなさそうですので、そろそろ
> 予定しておりました Namazu 2.2.X, 2.3.X の開発に移行したいと考えて
> います。(4月ごろをメドに移行作業を考えています。)

これはまだ始まっていませんよね。基本的に賛成です。作業の進めかたにも
特に異論ありません。


ここしばらく、いくつかの検索エンジン実装を利用する機会が増えたので、
いろいろとNamazuとの比較をしながらその特徴をみてみました。それを踏まえ
て、今後私がやりたい、やれたらいいなあということをざっと述べてみたいと
思います。

* インデックス作成時のテキストを圧縮して持つ

NMZ.contentsとかそんな名前で、インデックスを作成したときのテキスト
(フィルタの出力結果)をオプションで持たせたいと思います。現在は検索結
果のサマリをNMZ.field.summaryに持っているわけですが、ユーザは検索語
を入力した時に、その言葉を含む近辺を表示してほしいという要望が以前か
らありました。それを実現するためには必要だと思います。
Lucene, HyperEstraierはこれを実現しています。

* uni-gramへの対応

現在あるフレーズハッシュの仕組みを応用すれば、いちおうuni-gram検索は
今でも実現可能だと思います。速度的にはあまり期待できませんが、いちお
う今の仕組みの中で実装可能ということで、やってみると面白いのではない
かと。
gonzuiはまじめな(位置情報つき)uni-gramによる検索を実装していますが、
まあそこまではしなくてもいいかなと思います。

* さまざまなバックエンドへの対応

いくつかのエンジンを見てきて、今のNamazuの最大の特徴は

1. File::MMagicによるコンテンツ種別の自動認識
2. フィルタによる多彩なファイルへの対応

だと思いました。現在は独自のインデックス形式に記録しているわけですが、
他の検索エンジンのインデックスをバックエンドに使うことで、これらの利
点を他のエンジンにも転用することができます。


他にも何かアイディアがあったような気がするのですが、とりあえず思い出
せる範囲で書いてみました。全部が全部できるとは限りませんが、せっかくの
新しいチャレンジとしてできるといいなと希望を込めて。
--
野首 貴嗣
E-mail: knok@xxxxx
knok@xxxxx / knok@xxxxx

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年4月18日 17:29
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41303
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。