2006年8月29日

[Namazu-devel-ja 1189] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

寺西です。

Yukio USUDA wrote:
>
> テストスクリプトを試してみていたら
> Encode::Guess は "utf-8 or utf-8-strict"
> というのを返すときがありました。

うは。しかも "utf-8" とハイフン付きですか。

> 慎重な判定なのかもしれませんが
> かなり厳密ですね。

"utf-8 or utf-8-strict" ならはそれは "utf-8-strict" なんではないか
という気がしますが、何故 or なのか...。

とりあえず Namazu では Encode の "utf-8" と "utf-8-strict" は
"utf-8-strict" として扱うので良いのではないかと思います。

# "UTF-8" と大文字だと "utf-8-strict" ですし...。

例の判定ルーチンでは "utf8" のところに "utf-8", "utf-8-strict" も
追加しておくととりあえず良いですかね。

# 2回判定する可能性があるのは無駄かな

> Text::Iconv の使用についてですが
> Iconv は変換できない文字が1byteでも入っていると
> 全ての変換を放棄するので
> この癖がそのままでるのであれば
> 対応方法はあるはずですが、これもやっかいかもしれません。

変換できない文字があれば破棄しても良いような気もしますが、変換
できない文字を取り除く等の処理が必要なら libiconv 用の Perl モジュール
を別に作成して、File-MMagic のようにバンドルしても良いでしょう。
(それで何とかなるならですが。)
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年8月29日 10:53
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/45050
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。