2007年10月 9日

[Namazu-devel-ja 1646] Re: mknmz --no-heading-summary オプションの仕様について

寺西です。

Yukio USUDA wrote:
>
> > というより、ここは -x か $INVALID_LENG の処理に問題がありそうだと
> > いう話です。
> これについては -x オプション、 $INVALID_LENG と関係なく
> <h1> タグ内の文書を本文に追加するようにしたかと思います。


...いろいろ問題ありそうですね。

> これは本文を前方から順に処理せず、タグ種別単位で処理する手順に
> なるため
> プレーンテキストとして抽出される結果の順序が2.0系と違う場合
> があるというものです。
> 文書構造をタグで指定している場合は違いは大きくありませんが
> 文字や単語の色や字形をタグで頻繁に操作するような html の場合
> 出力順序が違ったものになるはずです。

この部分は要約作成において大きな問題になるかもしれません。
# もっとも現状も決して良いわけではないのですが...。

タグ種別単位で処理しない方法に変えるのが良いでしょう。
(それはできるはずだし。)

> 様々なテスト文書を用意してどう振る舞うべきかを定義していく
> のがよいのですが、労力と効果のバランスを考えると実用上どこまで

テストまで手が回らないかもしれませんが、少なくとも定義は必要かも
しれません。

> 厳密化するのが適当かという点で妥協しています。
> ただ、テストを追加していく中でバグが洗い出されるので必要な
> 手順ではあるかと思います。

まぁ、何にしても HTML::Parser を使う html.pl は、置き換えできる
レベルではないですね。
いずれ時間をかけて手を加えましょう。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2007年10月 9日 01:55
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/64960
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。