2011年6月 8日

[debian-users:55360] Re: Beautifulsoup のバグ

こんばんは、櫻井です。

Pythonの話題になったので私も少し。Python標準のHTMLParserでも時々パース出来ずに例外を吐いてしまうページがあります。

ので今回もそれと同系統の話かなぁと思ってROMってました。私の場合は必要な部分だけreで切り抜いてパースしてます。

Debianのaptか、pipやeasy_installか、ソース取ってきてsetup.pyか、パッケージ管理も色々ですよね。rubyやperlでも同じ悩みがあるとどこかで読みました。

私は断然apt派です:-)
では失礼します。

11/06/08 Akihiro Terasaki <aki@xxxxx>:
> こんばんは。寺崎彰洋です。
>
> BeautifulSoup は存在も知らなかったですし、 python は
> ちょっと使ってみてるだけ、という者ですが。
>
> On Mon, Jun 06, 2011 at 00:27 +0900,
> mlus wrote:
>> def setPriceDatas(data, url):
>> page = urllib2.urlopen(url)
>> soup = BeautifulSoup(page)
>> date_strs = soup.findAll(['span'], attrs={"class" : "date"})
>>
>> ※url は 文字列データのURL表記です。
>>
>> この時点(インスタンス作成直後) で エラーが上がります。
>
> ------------------------------------------------------------
> #!/usr/bin/python
>
> from BeautifulSoup import BeautifulSoup
>
> soup = BeautifulSoup('<html><span class="date">2011/06/08</span></html>')
> print soup.findAll(['span'], attrs={"class" : "date"})
> ------------------------------------------------------------
>
> このようなファイルを作って実行してみましたがエラーには
> なりませんでした。どうやったらエラーが発生するのでしょうか?
> --
> Akihiro Terasaki
>
>


投稿者 xml-rpc : 2011年6月 8日 21:38
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/104432
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。