爬取数据需先用requests获取网页内容,再用BeautifulSoup解析HTML提取信息,动态内容使用Selenium模拟浏览器,最后清洗并保存为CSV、JSON或数据库。

爬取数据是Python中常见的任务,主要通过发送HTTP请求获取网页内容,再解析出需要的信息。实现这一过程通常使用几个核心库:requests、BeautifulSoup、re(正则)、lxml,有时也会用到Selenium处理动态页面。
1. 发送请求获取网页内容
使用 requests 库可以轻松获取网页的HTML源码。
示例:import requestsurl = 'https://www.php.cn/link/b05edd78c294dcf6d960190bf5bde635' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' } response = requests.get(url, headers=headers)
if response.status_code == 200: html = response.text else: print("请求失败,状态码:", response.status_code)
注意添加 User-Agent 防止被反爬机制拦截。部分网站会验证请求头。
2. 解析HTML提取数据
常用 BeautifulSoup 解析HTML结构,结合CSS选择器或标签名提取内容。
立即学习“Python免费学习笔记(深入)”;
示例:from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'html.parser') titles = soup.findall('h2', class='title') # 查找所有class为title的h2标签
for title in titles: print(title.get_text(strip=True))
也可以用 select() 方法使用CSS选择器:
soup.select('div.content p') 获取 div.content 下的所有 p 标签。
网站功能资讯模块资料模块会员模块产品展示模块产品订购模块购物车模块留言模块在线加盟模块多级后台管理系统网站环境本系统为 asp.net开发donet版本为1.1框架数据库为acdess2000授权方式为免费,本版本本地可直接运行(使用http://localhost或http://127.0.0.1访问)如需放到外网通过域名访问,则需通过qq联系我免费索取钥匙文件,将钥匙文件放到网站空间根目录即可
3. 处理动态加载内容(JavaScript渲染)
如果网页内容由JavaScript动态生成,requests 拿不到真实数据,需使用 Selenium 或 Playwright。
示例(Selenium):from selenium import webdriver from selenium.webdriver.common.by import Bydriver = webdriver.Chrome() driver.get('https://www.php.cn/link/b05edd78c294dcf6d960190bf5bde635')
等待元素加载(可配合 WebDriverWait)
elements = driver.find_elements(By.CLASS_NAME, 'item') for elem in elements: print(elem.text)
driver.quit()
这种方式模拟真实浏览器操作,适合抓取SPA(单页应用)或需要登录、点击翻页的场景。
4. 数据清洗与保存
提取后的数据常需清洗,可用 re、pandas 等工具处理。
保存方式包括:
-
保存为CSV:
import csv或pandas.DataFrame.to_csv() -
保存为JSON:
json.dump(data, open('data.json', 'w', encoding='utf-8')) - 存入数据库:如 sqlite3、pymysql 等
基本上就这些。掌握 requests + BeautifulSoup 能解决大多数静态页面需求。遇到反爬时考虑加 headers、延时、代理 IP。动态内容上 Selenium。不复杂但容易忽略细节,比如编码、网络超时、频率控制。









