如何用python爬取数据

舞姬之光
发布: 2025-11-17 22:14:40
原创
708人浏览过
爬取数据需先用requests获取网页内容,再用BeautifulSoup解析HTML提取信息,动态内容使用Selenium模拟浏览器,最后清洗并保存为CSV、JSON或数据库。

如何用python爬取数据

爬取数据是Python中常见的任务,主要通过发送HTTP请求获取网页内容,再解析出需要的信息。实现这一过程通常使用几个核心库:requests、BeautifulSoup、re(正则)、lxml,有时也会用到Selenium处理动态页面。

1. 发送请求获取网页内容

使用 requests 库可以轻松获取网页的HTML源码。

示例:

import requests
<p>url = '<a href="https://www.php.cn/link/b05edd78c294dcf6d960190bf5bde635">https://www.php.cn/link/b05edd78c294dcf6d960190bf5bde635</a>'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}
response = requests.get(url, headers=headers)</p><p>if response.status_code == 200:
html = response.text
else:
print("请求失败,状态码:", response.status_code)
登录后复制

注意添加 User-Agent 防止被反爬机制拦截。部分网站会验证请求头。

2. 解析HTML提取数据

常用 BeautifulSoup 解析HTML结构,结合CSS选择器或标签名提取内容。

立即学习Python免费学习笔记(深入)”;

示例:

from bs4 import BeautifulSoup
<p>soup = BeautifulSoup(html, 'html.parser')
titles = soup.find<em>all('h2', class</em>='title')  # 查找所有class为title的h2标签</p><p>for title in titles:
print(title.get_text(strip=True))
登录后复制

也可以用 select() 方法使用CSS选择器:

soup.select('div.content p') 获取 div.content 下的所有 p 标签。

如知AI笔记
如知AI笔记

如知笔记——支持markdown的在线笔记,支持ai智能写作、AI搜索,支持DeepseekR1满血大模型

如知AI笔记 27
查看详情 如知AI笔记

3. 处理动态加载内容(JavaScript渲染)

如果网页内容由JavaScript动态生成,requests 拿不到真实数据,需使用 SeleniumPlaywright

示例(Selenium):

from selenium import webdriver
from selenium.webdriver.common.by import By
<p>driver = webdriver.Chrome()
driver.get('<a href="https://www.php.cn/link/b05edd78c294dcf6d960190bf5bde635">https://www.php.cn/link/b05edd78c294dcf6d960190bf5bde635</a>')</p><h1>等待元素加载(可配合 WebDriverWait)</h1><p>elements = driver.find_elements(By.CLASS_NAME, 'item')
for elem in elements:
print(elem.text)</p><p>driver.quit()
登录后复制

这种方式模拟真实浏览器操作,适合抓取SPA(单页应用)或需要登录、点击翻页的场景。

4. 数据清洗与保存

提取后的数据常需清洗,可用 re、pandas 等工具处理。

保存方式包括:

  • 保存为CSVimport csvpandas.DataFrame.to_csv()
  • 保存为JSONjson.dump(data, open('data.json', 'w', encoding='utf-8'))
  • 存入数据库:如 sqlite3、pymysql

基本上就这些。掌握 requests + BeautifulSoup 能解决大多数静态页面需求。遇到反爬时考虑加 headers、延时、代理 IP。动态内容上 Selenium。不复杂但容易忽略细节,比如编码、网络超时、频率控制。

以上就是如何用python爬取数据的详细内容,更多请关注php中文网其它相关文章!

python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号