2011年6月12日

[debian-users:55384] Re: Beautifulsoup のバグ

寺崎さん、 度々 ご返答ありがとうございます。

> あら。でも「報告の目的は、beautifulsoup 自体のバグというより、
> 3.2.0-2~bpo60+1 [backports]: all
> が入ることを期待して、3.1.0.1-2: all が入ってきたことの報告です。」
> と書かれていらっしゃいましたよね。私にはよくわからなくなって
> しまいました。 ^^;

私のつたない自己判定としては、
1. 「作者が、3.2を使えと、昨年から言っているのだから、3.1 は使うのを避けて、3.2を使うべき」
2. 「Debianでも、3.1のパッチを当てるよりも、作者が使ってと言っている3.2を標準にしたら良い」
アプリケーションの目的は、より多くの文書をパースできれば、それが一番であり、作者が替えろといっている3.1にパッチを当てる労力をさくのは無駄。
といったものです。

> ただ、バグの報告で「バグというか、最初から動作しないというか
> そういう感じです。」などと、そのバグのひどさは書いてある
> けれど具体的に何をどうやったら、そのバグが再現するのかは

たしかに、具体的な投稿を記述していません。しかし、私が引っかかった文書を提示したところで、あまり意味がないように思えましたので、書きませんでした。(なぜなら、作者自身が3.2を推奨している上に、3.2では対象文書を問題なく解析できているからです。)

Version 3.1.0 of Beautiful Soup does significantly worse on real-world
HTML than version 3.0.8 does. The most common problems are handling
<script> tags incorrectly,
とありますので、通常の解析に関して、3.0.8よりも、レベルが低く、且つスクリプトタグの解析に問題があるとあります。

Version 3.1.0 of Beautiful Soup does significantly worse on real-world
HTML than version 3.0.8 does.

ご提示いただいた、

soup = BeautifulSoup('<html><span class="date">2011/06/08</span></html>')

というタグは、本家の言う real-world HTML の案件には該当しないので、解析に問題が出なかったのだと思います。

>書かれていない、というものは困ってしまいます。 Debian に
>愛着を持っている人にはあまり気持ちの良いものではないのでは
>ないでしょうか。

これは、考えてもみませんでした。
パッケージ作成時の依存関係の問題ならばわかりますが、アプリケーション自体動作のバグは、何もDebianのメンテナさんには全く関係のないことだとばかり思っていました。

このへんの私の考え方は間違っているのかもしれませんが、
バグを治すこと自体が目的ではなく、解析できることが目的であって、作者の認識では、3.2がベストで、3.1から乗り換えろと言っている。そして、開発は4.0
に入っている。だったら、3.2を標準にすればよいだけ。
というシンプルなものです。

しかし、今回の事では、良い勉強になりました。
ご気分を害す方もおられるかもしれませんので、今後は、この手の発言を控えるようにしたいと思います。

投稿者 xml-rpc : 2011年6月12日 22:17
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/104350
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。