2006年8月25日

[Namazu-devel-ja 1172] Re: nmz/codeconv.c(get_external_charset) について

寺西です。

Yukio USUDA wrote:
>
> 多くの文字が表示できる英語環境という意味では
> en_US.utf-8 や en_GB.utf-8 がありますが、そういう意味では
> ないのでしょうか?

ここではテンプレートに絞って話をします。
テンプレートに関しては話が複雑なので整理しないといけないと感じて
います。

基本のテンプレート NMZ.xxx は US-ASCII となっています。
日本語は NMZ.xxx.ja で UTF-8 で書きます。
フランス語、ドイツ語... など他の言語も UTF-8 で書きます。

現状では、英語に関しては基本のテンプレートを使うので、US-ASCII に
限定されてしまっています。
通常、en_US は、ISO-8859-1 ですし、en_US.iso885915, en_US.utf8 の
ように US-ASCII より多くの文字が使えるのが普通です。
フランス語、ドイツ語...といった ISO-8859-1,2 が使えないと基本文字が
表示できないわけではありませんが、© のような ISO-8859-1 等
の記号が(他の言語では使えるのに)使えないというのは、不自然でしょう。
(HTML のデフォルトのキャラセットが ISO-8859-1 ですし。)

これは積極的に ISO-8859-* 端末の表示をサポートしようということでは
なくて、従来のフランス語、ドイツ語...などの互換性維持にひっぱられた
だけのものです。
(他の ISO-8859-X も同様に拡張していくことは容易ですが、今のところ
考えていません。)

英語でも US-ASCII 以外を使うには、
A. 基本テンプレートの NMZ.xxx を US-ASCII から UTF-8 に変える
B. 基本テンプレートは US-ASCII のまま NMZ.xxx.en を用意する
のいずれかが考えられます。

それならば、簡単に A でよさそうな気もするのですが、どの端末でも
全ての文字が表示できるであろう US-ASCII で基本テンプレートを作る
B の方が、なんとなく安心できます。
(UTF-8 -> US-ASCII に変換して表示はできますが、US-ASCII 以外の文字
が欠落して表示するよりは、基本テンプレートは US-ASCII で完結して
いるのが何となく良いかなという感じがするからです。)

> 本来メッセージ表示の言語、文字コードと
> インデックス対象の言語、文字コードは独立しているべきだと思います。

LC_MESSAGES と LC_CTYPE で独立していますが、そうではなくて?

> インデックスについては既に --index-lang オプションがあるので
> 必要に応じて同様のオプションを追加していくことになるのでは
> と思います。

--index-lang オプション導入時にも反対したのですが、このオプションは
あまりよくありません。少なくとも現在の実装はまずいです。
できれば、このオプションは廃止したいと思います。

> > なお、これらの修正は HEAD に対して行いましたが、
> > development-2-1 にも
> > 評価用に廉価版の get_external_charset() を導入しました。
>
> STABLE の namazu でも iconv を 使うことにした
> のであれば廉価版といわず

STABLE とは stable-2-0 でしょうか? それとも 2.2 でしょうか?
stable-2-0 では互換性のこともあるので iconv は導入しませんが、
2.2 にはもちろん導入します。

> utf-8 ターミナルでの表示にも対応してしまってもよいのではないで
> しょうか。

HEAD は、XXXX.utf8 な環境なら UTF-8 で表示するはずですよ。
development-2-1 は UTF-8 出力をサポートしていませんので、現状では
無理です。対応することは可能でしょうが、そういうことは HEAD の
方で対応すればよいので、development-2-1 まで下ろしてくる必要はない
でしょう。

個人的には development-2-1 にまだ手を加えたいとは考えているので
大きなことは言えないのですが、開発の中心は HEAD に移すというのが
建前ですので。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年8月25日 22:18
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/44549
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。