2011年5月 4日

[pgsql-jp: 40764]textsearch_jaを使わない日本語全文検索

masuidriveと申します。よろしくお願いします。

現在、Herokuで動く翻訳ドキュメント管理システムを作っており、
その中で、日本語を含んだドキュメントの全文検索を実装しようと思っています。

HerokuのPostgreSQLでは、textsearch_jaを入れることが出来ないので、
Ruby側で日本語を分かち書きし、それをスペース区切りにしてデータ投入することで
標準のテキスト検索機能を使って日本語の全文検索を実現しようと思いました。


しかしうまく行かないので、手元のPgSQL 9.0で色々試したところ、パーサの時点で
日本語がblankとして認識されていることに気がつきました。

-- BEGIN OF 検証SQL
SET client_encoding TO 'UTF8';
SELECT alias, description, token FROM ts_debug('ルビー');
結果> "blank";"Space symbols";"ルビー"
-- END OF 検証SQL

ドキュメントを読んでいると、lc_ctypeを適切に設定していれば、aliasは
'word'になりそうな気がするのですが、何か分かる方が居ましたら
教えて頂けると幸いです。

なにとぞ、よろしくお願いします。

--
Yuichiro MASUI <masui@xxxxx>
http://masuidrive.jp


投稿者 xml-rpc : 2011年5月 4日 03:05
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/103530
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。