2006年4月18日

[Namazu-devel-ja 1037] Re: そろそろNam azu 2.3.X 開発スタート

寺西です。

NOKUBI Takatsugu wrote:
>
> At Sat, 25 Mar 2006 01:34:28 JST,
> Tadamasa Teranishi wrote:
> > Namazu 2.0.16 のリリースが終え特に問題もなさそうですので、そろそろ
> > 予定しておりました Namazu 2.2.X, 2.3.X の開発に移行したいと考えて

> > います。(4月ごろをメドに移行作業を考えています。)
>
> これはまだ始まっていませんよね。基本的に賛成です。作業の進めかたにも
> 特に異論ありません。

すみません。まだ、作業にかかれていません。
あるタイミングでフリーズ宣言して、作業にとりかかることになります。

> ここしばらく、いくつかの検索エンジン実装を利用する機会が増えたので、
> いろいろとNamazuとの比較をしながらその特徴をみてみました。それを踏まえ
> て、今後私がやりたい、やれたらいいなあということをざっと述べてみたいと
> 思います。

そうですね。そういった議論がやっとできるようになったのはうれしい
ことです。

> * インデックス作成時のテキストを圧縮して持つ
>
> NMZ.contentsとかそんな名前で、インデックスを作成したときのテキスト
> (フィルタの出力結果)をオプションで持たせたいと思います。現在は検索結

実装は容易ですね。

> 果のサマリをNMZ.field.summaryに持っているわけですが、ユーザは検索語
> を入力した時に、その言葉を含む近辺を表示してほしいという要望が以前か
> らありました。それを実現するためには必要だと思います。

圧縮したテキストを持つという方法もあるでしょうし、
pNamazu のようにヒット時に逐次生成するという方法もあるかと
思います。
まぁ、HDD とインデックス作成時間の問題を除けば、前者の方が有利
ですかね。

なお、2.0.16 からの nmzcat をうまく使えば、後者の方法に利用でき
そうではあります。

加えて、テキスト全体から近辺を切り出して表示するという処理は必要に
なりますが。

> * uni-gramへの対応
>
> 現在あるフレーズハッシュの仕組みを応用すれば、いちおうuni-gram検索は
> 今でも実現可能だと思います。速度的にはあまり期待できませんが、いちお
> う今の仕組みの中で実装可能ということで、やってみると面白いのではない
> かと。
> gonzuiはまじめな(位置情報つき)uni-gramによる検索を実装していますが、
> まあそこまではしなくてもいいかなと思います。

私はむしろ uni-gram 検索よりも、位置情報付きフレーズ検索の方が
面白いかなぁと思っています。

> * さまざまなバックエンドへの対応
...
> 1. File::MMagicによるコンテンツ種別の自動認識
> 2. フィルタによる多彩なファイルへの対応
>
> だと思いました。現在は独自のインデックス形式に記録しているわけですが、
> 他の検索エンジンのインデックスをバックエンドに使うことで、これらの利
> 点を他のエンジンにも転用することができます。

他の検索エンジンから nmzcat を呼び出せば上記のメリットをそのまま
受けられるのではないかと思います。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年4月18日 18:33
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41306
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。