2007年10月 6日

[Namazu-devel-ja 1645] Re: mknmz --no-heading-summary オプションの仕様について

臼田です

Tadamasa Teranishi さんは書きました:
>> filter/html.pl に関しては正規表現を使用している STABLE とは
>> 抽出の方法や思想が根本的に違うため同じにはなりません。
>
> というより、ここは -x か $INVALID_LENG の処理に問題がありそうだと
> いう話です。

これについては -x オプション、 $INVALID_LENG と関係なく
<h1> タグ内の文書を本文に追加するようにしたかと思います。

>> 互換性の話を問われても対応できない部分があるため
>> これは2.0系にはいれません。
>
> 互換性はとるべきだろうと思います。ここで言う互換性とは、抽出される
> テキスト1文字も違いを許さないということではありません。
> パース処理の都合で異なる部分(stable-2-0 で正しく処理できていない部分
> を合わせろということではありません)
> は仕方ないのですが、

これは本文を前方から順に処理せず、タグ種別単位で処理する手順に
なるため
プレーンテキストとして抽出される結果の順序が2.0系と違う場合
があるというものです。
文書構造をタグで指定している場合は違いは大きくありませんが
文字や単語の色や字形をタグで頻繁に操作するような html の場合
出力順序が違ったものになるはずです。

> HTML::Parser を使うか否かで、振る舞いが違うのは問題だからです。
> これはトラブルの元です。(実際、現状バグなのか、意図して振る舞いが
> 違うのか、何だかよく分かっていない。調査に時間がかかりそうです。)
様々なテスト文書を用意してどう振る舞うべきかを定義していく
のがよいのですが、労力と効果のバランスを考えると実用上どこまで
厳密化するのが適当かという点で妥協しています。
ただ、テストを追加していく中でバグが洗い出されるので必要な
手順ではあるかと思います。

臼田幸生

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2007年10月 6日 11:44
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/64924
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。