Python动态网页抓取方法_selenium与requests结合应用【指导】-Python教程-PHP中文网

Python动态网页抓取方法_selenium与requests结合应用【指导】

冷漠man

发布： 2025-12-18 22:13:44

原创

379人浏览过

Python动态网页抓取需Selenium与requests结合：Selenium处理JS渲染、登录验证等交互，requests高效调用API获取数据。关键在于用Selenium提取Cookie、Token等参数后交由requests批量请求，兼顾真实性与效率。

python动态网页抓取方法_selenium与requests结合应用【指导】

Python动态网页抓取不能只靠requests，因为很多页面内容由JavaScript异步加载，requests拿不到渲染后的HTML。这时候需要Selenium驱动浏览器模拟真实访问，再配合requests高效处理后续请求（如接口、图片、文件等），两者结合才能兼顾“可执行性”和“效率”。

用Selenium获取渲染后的真实HTML

启动浏览器（推荐Chrome + ChromeDriver），打开目标网址，等待关键元素出现后再提取页面源码。注意显式等待比time.sleep()更可靠。

安装：pip install selenium
下载对应版本的chromedriver，并确保它在PATH中或指定绝对路径

示例关键代码：

from selenium import webdriver<br>
from selenium.webdriver.common.by import By<br>
from selenium.webdriver.support.ui import WebDriverWait<br>
from selenium.webdriver.support import expected_conditions as EC<br><br>
driver = webdriver.Chrome()<br>
driver.get("https://example.com")<br>
# 等待某个class为"content"的div加载完成<br>
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "content")))<br>
html = driver.page_source  # 此时html含JS渲染后的内容<br>
driver.quit()

登录后复制

从Selenium中提取请求参数，交给requests发接口

有些动态页的数据来自XHR接口（比如列表分页、评论、商品详情）。与其让Selenium反复点击翻页，不如用它先登录/触发一次，再从Network面板或页面源码中分析出API地址、headers、cookies、token等，转而用requests批量调用——速度快、资源省、易调试。

用driver.get_cookies()获取当前会话cookie，传给requests.Session()
用driver.execute_script("return window.localStorage.getItem('token')")读取前端存储的认证信息
查看浏览器开发者工具→Network→XHR，找带数据的请求，右键“Copy as cURL”，再用在线工具转成requests代码（如curlconverter）

混合策略：Selenium只做“必要动作”，requests负责“大量数据”

典型场景如登录后爬商品列表：Selenium完成输入账号密码、点登录、过滑块验证；登录成功后，用requests直接调用商品API（带Cookie和Token），避免Selenium逐页跳转、解析DOM。

ProcessOn

免费在线流程图思维导图，专业强大的作图工具，支持多人实时在线协作

925

查看详情

立即学习“Python免费学习笔记（深入）”；

登录后用driver.current_url确认跳转成功，再用driver.get_cookie("sessionid")提取关键凭证

构造requests会话：

s = requests.Session()<br>
for cookie in driver.get_cookies():<br>
    s.cookies.set(cookie['name'], cookie['value'])<br>
resp = s.get("https://api.example.com/items?page=2", headers={"User-Agent": "Mozilla/5.0..."})

登录后复制

若接口需签名或时间戳，可在Selenium中执行JS生成（driver.execute_script("return generateSign(...)")），再传给requests

注意事项与避坑点

两者结合不是简单拼接，要注意上下文一致性与反爬适配。

Selenium默认User-Agent较明显，建议启动时加参数伪装：
options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...")
requests无法自动执行JS，所以不能替代Selenium处理验证码、Canvas指纹、WebGL检测等强对抗逻辑
关闭Selenium的图片加载可提速：
options.add_argument("--blink-settings=imagesEnabled=false")
频繁启停浏览器开销大，建议复用driver实例，或用无头模式+连接池管理

以上就是Python动态网页抓取方法_selenium与requests结合应用【指导】的详细内容，更多请关注php中文网其它相关文章！