python - BeautifulSoup解析网页的问题
天蓬老师
天蓬老师 2017-04-17 13:08:28
[Python讨论组]

soup = BeautifulSoup(urlopen(url).read()) 这样做就解析不了网页
soup.findAll('') 获取什么节点都没有
而把html = urlopen(url).read(),html打印出来,在控制台复制粘贴给变量 content,然后这样做 soup = BeautifulSoup(content),就能解析成功呢?

天蓬老师
天蓬老师

欢迎选择我的课程,让我们一起见证您的进步~~

全部回复(1)
高洛峰
from bs4 import BeautifulSoup
import urllib

url = 'http://soccerdata.sports.qq.com/playerSearch.aspx?lega=epl&pn=9'
soup = BeautifulSoup(urllib.urlopen(url).read())
print len(soup.findAll())
print len(soup.findAll(''))
print len(soup.findAll('p'))

content = '

<p><h1>This is my homepage.</h1><p>Do you know?</p></p>

'
soup2 = BeautifulSoup(content)
print len(soup2.findAll())
print len(soup2.findAll(''))
print len(soup2.findAll('p'))

输出:

856
0
38
3
0
1
[Finished in 1.5s]

测试平台:

  • Win7 中文版 SP1
  • Python2.7.6
  • BeautifulSoup4.3.2

运行结果,供楼主参考。


有图有真相:

看一下你用的是哪个版本的bs吧

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号