<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_friend_areafilter","js":["apps\/search\/js\/pl\/friend\/areafilter.js?version="],"css":[],"html":"<p class=\"form_friends\" node-type=\"form\">\n <p class=\"unfold_sorts\">\n <p class=\"form_table\">\n <p node-type=\"simpleSearch\">\n \t <input type=\"hidden\" name=\"type\" value=\"area\">\n <p class=\"form_ytip clearfix\">\n \t<p class=\"ytip_add\">\n \t<dl class=\"regist_dir ytip_top\">\n <dt>\u5730\u533a\uff1a<\/dt>\n <dd><em node-type=\"curRegion\" name=\"region\" value=\"custom:64:1\">\u5b81\u590f-\u94f6\u5ddd<\/em>\n <a action-type=\"region\" href=\"javascript:;\" class=\"dir_change\">[\u9009\u62e9]<\/a><\/dd>\n <\/dl>\n <dl class=\"regist_dir ytip_top\">\n\t <dt>\u5b66\u6821\uff1a<\/dt>\n\t <dd class=\"conbox\"><input name=\"scho\" type=\"text\" class=\"W_input2 S_wid1\" value=\"\u8f93\u5165\u5b66\u6821\u540d\u79f0\" placeholder=\"\u8f93\u5165\u5b66\u6821\u540d\u79f0\" style=\"color:#999;\"
以上新浪微博爬下来的源文件(片段)是unicode的,通过decode('unicode_escape')转回正常去掉源文件里面的“\”:
fileHandle = open('1.htm', 'r') #本地htm文件
haha = fileHandle.read()
haha1 = haha.decode('unicode_escape')
re_a = haha1.replace('\\', '')
haha2 = BeautifulSoup(re_a)
然后按照查找标签获取想要数据的时候就什么也获取不到 但是有些可以感觉想要的内容不在里面,并且获取到中文也显示乱码(都是UTF-8),我用的是bs4 之前用过bs3 感觉好多都变了
是不是我的语法错了? 还是和unicode有关? 求大神指导! 我在这里捡肥皂了!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...