Python网页解析技巧_HTML与XPath说明【指导】

舞姬之光

发布时间：2025-12-31 21:46:48

396人浏览过

来源于php中文网

原创

Python网页解析核心是用XPath准确提取HTML目标数据，需理解DOM结构；推荐lxml库配合requests，注意动态渲染、反爬及class变动等常见问题。

python网页解析技巧_html与xpath说明【指导】

Python做网页解析，核心是准确提取HTML里的目标数据。用好XPath，比单纯靠正则或简单字符串匹配更稳定、更灵活——前提是理解HTML结构和XPath定位逻辑。

HTML结构决定XPath怎么写

XPath不是凭空写的，它严格依赖网页的DOM树结构。比如一个商品标题常在

新品上市

里，那对应XPath就是//h2[@class="title"]；如果它嵌在

里，而该div还有序号属性

，就可以写成//div[@class="item" and @data-index="3"]/h2。

建议动手前先用浏览器开发者工具（F12）右键元素 → “Copy XPath”，观察生成路径，再手动简化（比如把冗长的绝对路径/html/body/div[3]/section/div/h2换成更健壮的相对路径//section//h2）。

常用XPath语法速查与避坑

//tag：匹配任意层级的tag元素（如//a找所有链接）
@attr="value"：按属性筛选（如//img[@alt]找有alt属性的图片，//div[@id="content"]精准定位）
text()：取标签内纯文本（如//span/text()，注意它不包含子标签内容）
contains(@class, "btn")：class含“btn”就匹配（避免因class多值如class="btn btn-primary"导致完全匹配失败）
position()=1 或 [1]：取第一个匹配项（XPath索引从1开始，不是0）

常见错误：用/div[1]想取第一个div，结果没生效——因为这是指父节点下的第一个子元素是否为div，而非页面中第一个div。应改用(//div)[1]。

立即学习“Python免费学习笔记（深入）”；

用lxml + XPath实战解析一页

安装：pip install lxml（比内置的html.parser更快更标准，对XPath支持完整）

文心快码

文心快码（Comate）是百度推出的一款AI辅助编程工具

下载

基础流程：

用requests获取HTML源码（注意加headers模拟浏览器，防反爬）
用lxml.html.fromstring()解析成可查询对象
调用.xpath()方法传入XPath字符串，返回列表（即使只匹配一个，也是[Element]）
对结果用.text_content()或.get("href")等提取内容

示例：抓取豆瓣电影Top250第一页的片名和评分

from lxml import html
import requests

resp = requests.get("https://movie.douban.com/top250", headers={"User-Agent": "Mozilla/5.0..."})
tree = html.fromstring(resp.content)
titles = tree.xpath('//div[@class="hd"]/a/span[1]/text()')
ratings = tree.xpath('//div[@class="bd"]/div[@class="star"]/span[2]/text()')
for t, r in zip(titles, ratings):
    print(f"{t.strip()} —— {r.strip()}")

当XPath失效时的应对思路

页面动态渲染（如Vue/React）、JS懒加载、反爬策略都可能导致直接请求HTML拿不到目标数据。这时别硬调XPath：

先确认源码里是否真有该内容（Ctrl+U看原始HTML），没有就说明是JS生成的，需换方案（如Selenium、Playwright）
检查是否被重定向或需要登录cookie，用session保持状态
部分网站会随机改class名，可改用更稳定的定位方式：比如找附近有固定文字的标签，用following-sibling::或ancestor::向上找容器
XPath太复杂难维护？考虑用CSS选择器（lxml也支持.cssselect()），语义更直观，例如div.item h2.title

不复杂但容易忽略。

从绝对定位Div布局到CSS Grid：构建表格化视图的现代方法

从CSS定位Div布局到HTML表格或Grid布局的转换策略

将基于CSS样式将Div布局转换为HTML表格

使用Selenium抓取动态隐藏内容的策略与实践

从CSS定位Div布局到HTML表格或CSS Grid的转换策略

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

css vue react python html js cookie 浏览器工具懒加载 session ai Python css html pip Cookie Session 字符串 class copy JS 对象 dom href 选择器 position

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 Pytest 命令行中安全传递 JSON 字符串参数下一篇：暂无

作者最新文章

坐飞机流程详细图解

2025-12-30 12:20

怎么看抖音号自己的名字

2025-12-30 12:21

抖音直播平台带货赚钱_平台直播带货的流量机制与变现逻辑

2025-12-30 13:21

ao3官网直接进入怎么进_archiveofourown.org快速访问入口地址

2025-12-30 13:44

拼多多商家版钱怎么取出来_拼多多商家版收入取现银行卡教程

2025-12-30 13:58

抖音网页版有访客记录吗_抖音网页版访客数据功能

2025-12-30 13:59

ao3镜像入口网址快速访问_AO3镜像入口最新网址详解

2025-12-30 14:00

yandex首页快速进入方法_Yandex搜索引擎官网首页免登录入口

2025-12-30 14:02

yandex.com官网入口地址_Yandex国际版搜索引擎官方首页网址

2025-12-30 14:03

yandex浏览器官方下载安装_Yandex Browser正版浏览器下载入口指南

2025-12-30 14:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

715

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

739

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

699

2023.08.11