比如网页http://tjcredit.gov.cn/platform/saic/viewBase.ftl?entId=00011f7153ee8a1e4f8e48eb44ce2954
我要获取登记信息。在源代码里面是这样的:
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
要获取到登记信息,只需要用到 GET 参数中的 entId,带上这个参数请求这个 url 就行了,这些都不用去网页里找,直接先在浏览器控制台的网络面板的 XHR 请求里就能看到:
要是有jquery基础的话直接用pyquery吧,和jquery语法一样
Q = pyquery.PyQuery(text)
text就是你的网页html,把Q当成jquery的$
比如要取ID为abc的对象,则Q('#abc')
用python写爬虫的很多时间浪费在编写xpath上,我发起了一个开源项目,可以把调测xpath的时间省掉,可以看我这篇文章:https://segmentfault.com/a/1190000005151856