2006年8月29日

[Namazu-devel-ja 1190] Re: 文字 N-gram ぽい実験 (Re: フレーズ検索って N-gram ですよね

臼田です

Tadamasa Teranishi wrote:
> Yukio USUDA wrote:
>
>> テストスクリプトを試してみていたら
>> Encode::Guess は "utf-8 or utf-8-strict"
>> というのを返すときがありました。

>>
>
> うは。しかも "utf-8" とハイフン付きですか。
>
test3.pl を utf8 に変換して保存した場合の結果なのですが
不正確に書いていました。
正しくは "utf-8-strict or utf8" でした。

> とりあえず Namazu では Encode の "utf-8" と "utf-8-strict" は
> "utf-8-strict" として扱うので良いのではないかと思います。
>
> # "UTF-8" と大文字だと "utf-8-strict" ですし...。
>
> 例の判定ルーチンでは "utf8" のところに "utf-8", "utf-8-strict" も
> 追加しておくととりあえず良いですかね。
>
> # 2回判定する可能性があるのは無駄かな
>
判定が不確かで複数候補が出る場合に utf-8-strict 単独で現れることは
ないように思えるので複数候補が出る場合の処理は utf8 を押さえてあれば
大丈夫ではないかと思います。

>> Text::Iconv の使用についてですが
>> Iconv は変換できない文字が1byteでも入っていると
>> 全ての変換を放棄するので
>> この癖がそのままでるのであれば
>> 対応方法はあるはずですが、これもやっかいかもしれません。
>>
>
> 変換できない文字があれば破棄しても良いような気もしますが、変換
> できない文字を取り除く等の処理が必要なら libiconv 用の Perl モジュール
> を別に作成して、File-MMagic のようにバンドルしても良いでしょう。
> (それで何とかなるならですが。)
>
Text::Iconv は使ったことがないのですが、 iconv() を呼び出していることから
glibc や libiconv の環境依存になると思います。対応状況によって
未定義コードにあたってエラーになったりならなかったりするのではと
思っています。
いろいろ試してエラー時の処理を丁寧に作り込んでいくことになるのでは
ないでしょうか。

臼田幸生
_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年8月29日 12:43
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/45073
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。