总结
豆包 AI 助手文章总结

Python爬虫之怎么解析HTML页面

WBOY
发布: 2023-05-30 21:41:42
转载
3459人浏览过

用Python解析HTML页面

我们通常需要解析网络爬取的页面,以获取我们需要的数据。通过分析 html 标签的组合结构,我们可以提取出网页中所包含的有用信息。在 python 中,有三种常见的 html 解析方式:正则表达式解析、xpath 解析和 css 选择器解析。

HTML 页面的结构

了解 HTML 页面的基本结构是在讲解 HTML 解析方式之前的先决条件。当我们在浏览器中打开一个网站,并通过鼠标右键菜单选择“显示网页源代码”菜单项时,就可以看到网页对应的 HTML 代码。HTML 代码通常由标签、属性和文本组成。标签承载页面显示的内容,属性补充标签信息,而文本则是标签所展示的内容。下面是一个简单的 HTML 页面代码结构示例:

<!DOCTYPE html>
<html>
    <head>
        <!-- head 标签中的内容不会在浏览器窗口中显示 -->
        <title>这是页面标题</title>
    </head>
    <body>
        <!-- body 标签中的内容会在浏览器窗口中显示 -->
        <h2>这是一级标题</h2>
        <p>这是一段文本</p>
    </body>
</html>
登录后复制

在这个 HTML 页面代码示例中,是文档类型声明,标签是整个页面的根标签,

和是标签的子标签,放在标签下的内容会显示在浏览器窗口中,这部分内容是网页的主体;放在标签下的内容不会在浏览器窗口中显示,但是却包含了页面重要的元信息,通常称之为网页的头部。HTML 页面大致的代码结构如下所示:
<!DOCTYPE html>
<html>
    <head>
        <!-- 页面的元信息,如字符编码、标题、关键字、媒体查询等 -->
    </head>
    <body>
        <!-- 页面的主体,显示在浏览器窗口中的内容 -->
    </body>
</html>
登录后复制

标签、层叠样式表(CSS)和 JavaScript 是构成 HTML 页面的三个基本组成部分。标签用来承载页面要显示的内容,CSS 负责对页面的渲染,而 JavaScript 用来控制页面的交互式行为。要实现 HTML 页面的解析,可以使用 XPath 的语法,它原本是 XML 的一种查询语法,可以根据 HTML 标签的层次结构提取标签中的内容或标签属性;此外,也可以使用 CSS 选择器来定位页面元素,就跟用 CSS 渲染页面元素是同样的道理。

立即学习Python免费学习笔记(深入)”;

XPath 解析

XPath 是在 XML(eXtensible Markup Language)文档中查找信息的一种语法,XML 跟 HTML 类似也是一种用标签承载数据的标签语言,不同之处在于 XML 的标签是可扩展的,可以自定义的,而且 XML 对语法有更严格的要求。XPath 使用路径表达式来选取 XML 文档中的节点或者节点集,这里所说的节点包括元素、属性、文本、命名空间、处理指令、注释、根节点等。

XPath路径表达式类似于文件路径语法,可使用“/”和“//”选取节点。选取根节点时,可使用单斜杠"/";选取任意位置的节点时,可使用双斜杠"//”。例如,“/bookstore/book”表示选取根节点 bookstore 下的所有 book 子节点,“//title”表示选取任意位置的 title 节点。

XPath 还可以使用谓语(Predicate)来过滤节点。方括号中的嵌套表达式可以是数字、比较运算符或函数调用,作为谓语。例如,“/bookstore/book[1]”表示选取 bookstore 的第一个子节点 book,“//book[@lang]”表示选取所有具有 lang 属性的 book 节点。

XPath 的函数包括字符串、数学、逻辑、节点、序列等函数,这些函数可以用于选取节点、计算值、转换数据类型等操作。例如,“string-length(string)”函数可以返回字符串的长度,“count(node-set)”函数可以返回节点集中节点的个数。

下面我们通过一个例子来说明如何使用 XPath 对页面进行解析。假设我们有如下的 XML 文件:

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
    <book>
      <title lang="eng">Harry Potter</title>
      <price>29.99</price>
    </book>
    <book>
      <title lang="zh">Learning XML</title>
      <price>39.95</price>
    </book>
</bookstore>
登录后复制

对于这个 XML 文件,我们可以用如下所示的 XPath 语法获取文档中的节点。

路径表达式 结果
/bookstore 选取根元素 bookstore。注意:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
//book 选取所有 book 子元素,而不管它们在文档中的位置。
//@lang 选取名为 lang 的所有属性。
/bookstore/book[1] 选取 bookstore 的第一个子节点 book。

CSS 选择器解析

通过HTML标签的属性和关系来定位元素的方式被称为CSS选择器。根据 HTML 标签的层级结构、类名、id 等属性能够确定元素的位置。在 Python 中,我们可以使用 BeautifulSoup 库来进行 CSS 选择器解析。

我们接下来会举一个例子,讲解如何运用 CSS 选择器来分析页面。假设我们有如下的 HTML 代码:

<!DOCTYPE html>
<html>
<head>
	<meta charset="utf-8">
	<title>这是页面标题</title>
</head>
<body>
	<div class="content">
		<h2>这是一级标题</h2>
		<p>这是一段文本</p>
	</div>
	<div class="footer">
		<p>版权所有 © 2021</p>
	</div>
</body>
</html>
登录后复制
登录后复制

我们可以使用如下所示的 CSS 选择器语法来选取页面元素。

选择器 结果
div.content 选取 class 为 content 的 div 元素。
h2 选取所有的 h2 元素。
div.footer p 选取 class 为 footer 的 div 元素下的所有 p 元素。
[href] 选取所有具有 href 属性的元素。

正则表达式解析

用正则表达式可以解析 HTML 页面,从而实现文本的匹配、查找和替换。使用 re 模块可以进行 Python 的正则表达式解析。

下面我们通过一个例子来说明如何使用正则表达式对页面进行解析。假设我们有如下的 HTML 代码:

<!DOCTYPE html>
<html>
<head>
	<meta charset="utf-8">
	<title>这是页面标题</title>
</head>
<body>
	<div class="content">
		<h2>这是一级标题</h2>
		<p>这是一段文本</p>
	</div>
	<div class="footer">
		<p>版权所有 © 2021</p>
	</div>
</body>
</html>
登录后复制
登录后复制

我们可以使用如下所示的正则表达式来选取页面元素。

import re
html = '''
<!DOCTYPE html>
<html>
<head>
	<meta charset="utf-8">
	<title>这是页面标题</title>
</head>
<body>
	<div class="content">
		<h2>这是一级标题</h2>
		<p>这是一段文本</p>
	</div>
	<div class="footer">
		<p>版权所有 © 2021</p>
	</div>
</body>
</html>
'''
pattern = re.compile(r'
.*?

(.*?)

.*?

(.*?)

.*?
', re.S) match = re.search(pattern, html) if match: title = match.group(1) text = match.group(2) print(title) print(text)
登录后复制

以上代码中,我们使用 re 模块的 compile 方法来编译正则表达式,然后使用 search 方法来匹配 HTML 代码。在正则表达式中,“.*?”表示非贪婪匹配,也就是匹配到第一个符合条件的标签就停止匹配,而“re.S”表示让“.”可以匹配包括换行符在内的任意字符。最后,我们使用 group 方法来获取匹配的结果。

以上就是Python爬虫之怎么解析HTML页面的详细内容,更多请关注php中文网其它相关文章!

python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
相关标签:
来源:亿速云网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
豆包 AI 助手文章总结
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号