2011年5月 2日

[pgsql-jp: 40758] Re:textsearch-jaの全文検索での検索クエリについて

2011/5/2 mituhiro inaba <mit@xxxxx>:
> 検索結果の文章を表示させ、
> その文章中の当該キーワードを
> ts_headline関数を使って強調表示しようとする時、
> キーワードの強調は希望通りにされるのですが、
> 元の文章の改行などの文章体裁がすべて取り除かれてしまいます。
> ただしこれは仕様や制限による既定の動作とも思われます。

改行を取り除くのは仕様です。

日本語文書では、単語の間にも改
行が入ることがあります。  (↑な感じで)
ところが、単語の解析を行う MeCab は改行で単語を区切って
しまうため、textsearch_ja 側で事前に改行を取り除いています。

一方、英語文書の場合はスペースの代わりに改行を使うため、
半角文字の前後の改行は、スペースに置き換えて保持します。
(日本語文書内に、英語の文書混ざることを想定)

もし改行が保持できるとすれば後者の英語文書の場合のみですが、
改行を保持するか否かが文書に依存するのも一貫性が無いので、
今のところは「すべての改行を取り除く」で統一しています。

--
Itagaki Takahiro

投稿者 xml-rpc : 2011年5月 2日 10:18
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/103523
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。