python - 爬取人大经济论坛问题
PHP中文网
PHP中文网 2017-04-18 09:45:44
[Python讨论组]

这是搜索页
http://s.pinggu.org/search.ph...

这是请求时候看到的内容

这里有两个问题,
在form data里面有两个数据不知怎么获取。
一个是srchtxt,这个应该是搜索的那个字段,要怎么处理拼接进来。
另外一个是:formhash,这个可以在元素页面可以看到

但是这个也是在post搜索之后才有的,所以就是不知要怎么处理这两个字段。

PHP中文网
PHP中文网

认证0级讲师

全部回复(3)
PHP中文网

第一个 formhash 的获取,再搜索之前,事先访问一下http://s.pinggu.org/search.php 这个连接,这个时候,就会产生formhash这个字段了。另外一个字段出现乱码,我猜测的原因是,这个网页采用的gbk编码,所以说你传值的时候,也改变编码即可。

天蓬老师

formhash就按楼上说的去访问两次就可以了
srchtxt。。。你自己爬取的时候肯定要自己写关键字阿。。。要不爬啥啊

天蓬老师

srchtxt 顾名思义能猜到 search_text 搜索关键字 为什么会出现chrome上的unable to decode 估计是因为是url在转译中文后所以不能展示吧,这个不影响,你在提交表单的时候按照你的文字提交就行,url会自动转化

formhash 当你在get到这个页面的时候已经有了input 的value了,先获取到这个值,再去构造表单提交url

总结下:

1. srchtxt = 需要搜索的内容
2. formhash = 页面字段 (在提交时先去get页面这个字段value,构造完整的表单)

   
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号