linux - python 抓取公众号文章遇到验证问题
大家讲道理
大家讲道理 2017-05-16 13:33:44
[Linux讨论组]

linux 下抓取微信公众号文章遇到验证问题!!!!!!!!

这是我要抓取的人民日报链接:http://mp.weixin.qq.com/profile?src=3&timestamp=1492739045&ver=1&signature=bSSQMK1LY77M4O22qTi37cbhjhwNV7C9V4aor9HLhAvbGc2ybWX*qg3WqxntZ7iq0kvYe87oPpcSJKFdmGMx5g==
1:首先浏览器上访问是正常的。
2:linux下访问提示需要验证,以下是简单的代码

url = http://mp.weixin.qq.com/profile?src=3&timestamp=1492738883&ver=1&signature=bSSQMK1LY77M4O22qTi37cbhjhwNV7C9V4aor9HLhAvbGc2ybWX*qg3WqxntZ7iq2xTLUTfxAMzK79UGvalY1A==
response = urllib2.urlopen(url)
print response.read()

访问的结果如下:

补充说明下公众号链接的获取方式:
1:先访问链接:http://weixin.sogou.com/weixi...
2:再获取人民日报公众号的链接进行跳转。

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

全部回复(4)
習慣沉默

都不模拟header请求头的,就能抓取吗,建议先模拟request header再试一下

某草草
# coding: utf-8

import requests

headers = {}
headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0'

url = 'http://mp.weixin.qq.com/profile?src=3&timestamp=1492739045&ver=1&signature=bSSQMK1LY77M4O22qTi37cbhjhwNV7C9V4aor9HLhAvbGc2ybWX*qg3WqxntZ7iq0kvYe87oPpcSJKFdmGMx5g=='
r = requests.get(url, headers=headers)
print r.text
淡淡烟草味

现在在请求中加了header后,返回的错误是这样的。请各位大神麻烦再支下招

習慣沉默

用request可以,本地环境Mac OSX , python3.6.1

import requests

headers = {'user-agent' : 'Mozilla/5.0'}
respon = requests.get('http://mp.weixin.qq.com/profile?src=3&timestamp=1492831080&ver=1&signature=bSSQMK1LY77M4O22qTi37cbhjhwNV7C9V4aor9HLhAvbGc2ybWX*qg3WqxntZ7iqB7vsPUlOS3zhl-8n5FUODg==', headers = headers)
respon.encoding = 'utf-8'
print(respon.text)

内容在红色框那一行

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号