2008年2月21日

[pgsql-jp: 39217] Re:日本語全文検索 textsearch-ja のご紹介

08/02/21 に Tatsuo Ishii<ishii@xxxxx> さんは書きました:
> 石井です.
>
> > > 現時点でのインフラでは、効率的な N-gram ベースの検索は難しいです。
> > > 少なくとも、PostgreSQL 8.3 の素の全文検索や、
> > > この textsearch-ja のみでは実現できません。
> >
> > やはり無理ですか。

> > GINに位置情報を持てるように拡張される日を楽しみにするしかないですかね。
>
> GINに位置情報を持たせてn-gramを実現...というのは,どういうことを指して
> いるのかちょっと分かりませんが,素のPostgreSQLでn-gramを実装するのはさ
> ほど難しくないと思います.

http://archives.postgresql.org/pgsql-hackers/2007-05/msg00994.php
N-gramで任意の長さの文字列の部分一致を高速に検索するためには
転置インデックスの"post list"にItemPointerだけでなく部分文字列の出現位置を
記録する必要があると考えているのですが、もしかして何か勘違いしているかも。。。

「素のPostgreSQLで」というのは、インデックスではなく
転置インデックスと等価なテーブルを作成する、という意味でしょうか。

> 山口大学の事例が発表されています.

ちょっと探した限りでは詳しい実装が見つけられなかったのですが、
参考となるURL等ありましたらぜひ教えていただきたいです。

原田

投稿者 xml-rpc : 2008年2月21日 08:31
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/70092
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。