2008年2月20日

[pgsql-jp: 39215] Re:日本語全文検索 textsearch-ja のご紹介

> 現時点でのインフラでは、効率的な N-gram ベースの検索は難しいです。
> 少なくとも、PostgreSQL 8.3 の素の全文検索や、
> この textsearch-ja のみでは実現できません。

やはり無理ですか。
GINに位置情報を持てるように拡張される日を楽しみにするしかないですかね。

> プロジェクトのページの末尾にリンクを用意しましたが、既にある拡張モジュール

> Ludia (Senna ベース), pgestraier (Hyper Estraier), pgRast (Rast) などでは
> N-gram 方式も選択できるようです。N-gram が必須という場合には、
> これらの中から選んで使っていくことになるかと思います。

Ludiaは利用したことがあります。1.0の頃ですが。
率直な感想を述べるとやはりPostgreSQLの中で完結するという安心感がほしいところです。
Sennaのインデックスファイルが別にできてしまうあたりに微妙な不安があります。
ただ、それ自体で何か良くないことが起こったわけではないです。


原田

08/02/20 に ITAGAKI Takahiro<itagaki.takahiro@xxxxx> さんは書きました:
>
> H.Harada <umi.tanuki@xxxxx> wrote:
>
> > textsearch-jaでは、Mecabによる分かち書きを利用するとのことですが、
> > 8.3の全文検索機能を拡張すれば、N-gramベースの検索も
> > 可能なのでしょうか。
>
> 現時点でのインフラでは、効率的な N-gram ベースの検索は難しいです。
> 少なくとも、PostgreSQL 8.3 の素の全文検索や、
> この textsearch-ja のみでは実現できません。
>
> プロジェクトのページの末尾にリンクを用意しましたが、既にある拡張モジュール
> Ludia (Senna ベース), pgestraier (Hyper Estraier), pgRast (Rast) などでは
> N-gram 方式も選択できるようです。N-gram が必須という場合には、
> これらの中から選んで使っていくことになるかと思います。
>
> ただ、リカバリや DDL への対応不足などのトレードオフを持つものも
> あるようなので、事前に比較はされたほうが良いかもしれません。
> 性能や機能比較の情報も、ほとんど出回っていないようです。
>
> 今のところ、「これさえあれば大丈夫」と言えるまでの
> 全文検索製品は まだ無いというのが現状です。
>
> ------------------------------------------------------------
> 板垣貴裕 <itagaki.takahiro@xxxxx>
>
>
>

投稿者 xml-rpc : 2008年2月20日 19:34
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/70002
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。