2006年8月12日

[Namazu-devel-ja 1152] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

寺西です。

Tadamasa Teranishi wrote:
>
> Namazu の設計はやり直さないで、既存のフレーズ検索(単語 N-gram ぽい)
> に手を加えて、簡単な修正で文字 N-gram ぽい検索システムとしても使える
> かな? というのが、実験の目的です。

この実験で用いた修正を HEAD に反映しました。

> mknmz の修正箇所は、
> 分かち書き処理の代わりに、ASCII 7bit 文字以外を1文字ずつに分解する
> 処理を追加するだけです。

$WAKATI = "n-gram";

と指定できるようにしました。

> namazu, namazu.cgi の方は、検索文字列が見つからない場合、分解して
> フレーズ検索を行う機能が付いているのですが、この際、ひらがな、
> カタカナはその処理を行いません。
> この例外を外すと、ASCII 7bit 文字以外はフレーズ検索で検索を行う
> ようになります。この修正もほんのわずかです。

-DNGRAM 付きでコンパイルすると、この処理を行うように変更されます。
-DNGRAM 付きでコンパイルしたものは、簡易 N-gram 処理専用となり、
$WAKATI = "n-gram";
で作成したインデックスのみに対応します。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年8月12日 10:18
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/43875
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。