python beautifulsoup截取本地htm文件标签失败
高洛峰
高洛峰 2017-04-17 11:51:25
[Python讨论组]
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_friend_areafilter","js":["apps\/search\/js\/pl\/friend\/areafilter.js?version="],"css":[],"html":"<p class=\"form_friends\" node-type=\"form\">\n  <p class=\"unfold_sorts\">\n  <p class=\"form_table\">\n  <p node-type=\"simpleSearch\">\n  \t <input type=\"hidden\" name=\"type\" value=\"area\">\n   <p class=\"form_ytip clearfix\">\n   \t<p class=\"ytip_add\">\n   \t<dl class=\"regist_dir ytip_top\">\n   <dt>\u5730\u533a\uff1a<\/dt>\n   <dd><em node-type=\"curRegion\" name=\"region\" value=\"custom:64:1\">\u5b81\u590f-\u94f6\u5ddd<\/em>\n   <a action-type=\"region\" href=\"javascript:;\" class=\"dir_change\">[\u9009\u62e9]<\/a><\/dd>\n  <\/dl>\n  <dl class=\"regist_dir ytip_top\">\n\t  <dt>\u5b66\u6821\uff1a<\/dt>\n\t  <dd class=\"conbox\"><input name=\"scho\" type=\"text\" class=\"W_input2 S_wid1\" value=\"\u8f93\u5165\u5b66\u6821\u540d\u79f0\" placeholder=\"\u8f93\u5165\u5b66\u6821\u540d\u79f0\" style=\"color:#999;\" 

以上新浪微博爬下来的源文件(片段)是unicode的,通过decode('unicode_escape')转回正常去掉源文件里面的“\”:

fileHandle = open('1.htm', 'r') #本地htm文件
haha = fileHandle.read()
haha1 = haha.decode('unicode_escape')
re_a = haha1.replace('\\', '')
haha2 = BeautifulSoup(re_a)

然后按照查找标签获取想要数据的时候就什么也获取不到 但是有些可以感觉想要的内容不在里面,并且获取到中文也显示乱码(都是UTF-8),我用的是bs4 之前用过bs3 感觉好多都变了

是不是我的语法错了? 还是和unicode有关? 求大神指导! 我在这里捡肥皂了!

高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

全部回复(0)
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号