2006年4月19日

[Namazu-devel-ja 1039] Re: そろそろNam azu 2.3.X 開発スタート

At Tue, 18 Apr 2006 18:33:28 +0900,
Tadamasa Teranishi wrote:
> すみません。まだ、作業にかかれていません。
> あるタイミングでフリーズ宣言して、作業にとりかかることになります。

ああいえ、急ぐこともないと思うので、時間があるときにお願いします。

> そうですね。そういった議論がやっとできるようになったのはうれしい

> ことです。

はい。特に活発に開発を進めてくださっている、寺西さんと臼田さんにはと
ても感謝しています。

> 圧縮したテキストを持つという方法もあるでしょうし、
> pNamazu のようにヒット時に逐次生成するという方法もあるかと
> 思います。
> まぁ、HDD とインデックス作成時間の問題を除けば、前者の方が有利
> ですかね。

後者は実データを持たないといけないので、できればインデックスデータだ
けで完結するようにしたほうがいいかな、と思います。ファイルシステム以外
のものもインデックス対象にしたい、という構想も持っていますし。

> 私はむしろ uni-gram 検索よりも、位置情報付きフレーズ検索の方が
> 面白いかなぁと思っています。

それも面白いですね。テキストデータを持っていれば、そこからリニアに検
索しても大した手間ではないんじゃないかと思っています。どうせサマリの生
成も同じ作業が必要になりますし。

> 他の検索エンジンから nmzcat を呼び出せば上記のメリットをそのまま
> 受けられるのではないかと思います。

はい、実はnmzcatに大きな衝撃を受けています。かなり応用のきくツールで
すよね。以前、フィルタ部分のデバッグを容易にしたいという思いがあったの
ですが、これのおかげでそれも実現できます。臼田さんには感謝しています。

他に、最近気に掛けている周辺ツールについてちょっと紹介したいと思いま
す。

* libtextcat http://software.wise-guys.nl/libtextcat/
n-gram、統計ベースの言語種別推測ツール、ライブラリです。日本語だと、
EUC-JP, SJISのデータをもっています。日本語に関してはちょっと不完全ぽ
いのですが、単にデータベースの問題なので、もっとよりよいサンプルをあ
たえてやれば十分な精度の言語、エンコーディング推定ができそうです。

* WIRE http://www.cwr.cl/projects/WIRE/
C++で書かれたwebクローラです。NamazuのCVS HEADにあるschemeモジュール
を使うことで、これが収集したデータをNamazuで検索できるようになると思
います。
その実現のために、SWIGを使ったbindingを最近作成しました。
http://www.daionet.gr.jp/~knok/trac/trac.cgi/wiki/Wire-Swig
--
野首 貴嗣
E-mail: knok@xxxxx
knok@xxxxx / knok@xxxxx
_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年4月19日 09:30
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/41311
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。