0

0

PHP 正则表达式:如何匹配 HTML 中的所有标题

WBOY

WBOY

发布时间:2023-06-22 22:14:52

|

1520人浏览过

|

来源于php中文网

原创

php 中使用正则表达式匹配 html 标题是一种常见的操作。网页的标题通常用于展示页面的大致内容,便于用户理解和浏览。而在一些场合中,我们需要从 html 中提取所有的标题,从而进行后续的处理。

本文将介绍如何使用 PHP 正则表达式,快速有效地提取 HTML 中的所有标题。

一、HTML 标题的分类

在 HTML 页面中,有多种类型的标题,可以使用以下标签进行定义:

  1. h1 ~ h6 标签:用于表示标题的等级,h1 最高,h6 最低;
  2. title 标签:用于定义网页的标题,位于 head 标签中;
  3. meta 标签:用于定义网页的元数据,常用于搜索引擎优化。

二、PHP 正则表达式

立即学习PHP免费学习笔记(深入)”;

正则表达式是一种强大的搜索和替换工具,可以有效地处理文本字符串。在 PHP 中,我们可以使用 preg_match()、preg_match_all()、preg_replace() 等函数来实现正则表达式的匹配。

下面是一些常用的正则表达式语法:

  1. d:匹配数字字符;
  2. w:匹配字母数字、下划线;
  3. s:匹配空白字符;
  4. ^:匹配字符串的开头;
  5. $:匹配字符串的结尾;
  6. *:匹配任意个数的前一个字符;
  7. +:匹配至少一个前一个字符;
  8. ?:匹配零个或一个前一个字符;
  9. []:匹配一个字符集合;
  10. ():将一个表达式分组,用于后续操作。

三、匹配 HTML 中的所有标题

下面我们将分别介绍如何使用 PHP 正则表达式,匹配 HTML 页面中的不同类型的标题。

  1. h1 ~ h6 标签

首先,我们来看如何匹配 h1 ~ h6 标签中的标题。假设我们有以下的 HTML 代码:




    HTML 标题示例


    

这是一级标题

这是二级标题

这是三级标题

这是四级标题

这是五级标题
这是六级标题

我们可以使用 preg_match_all() 函数和正则表达式 /(.*?)[1-6]>/,来提取其中所有的标题:

$html = file_get_contents('example.html');
preg_match_all('/(.*?)/', $html, $matches);
print_r($matches[0]);

上述代码中,我们使用 file_get_contents() 函数读取 HTML 文件内容,然后使用 preg_match_all() 函数和正则表达式 /(.*?)[1-6]>/,来匹配其中的 h1 ~ h6 标题。

正则表达式中的 /(.*?)[1-6]>/,表示匹配 h1 ~ h6 标签内部的字符串,其中 (.*?) 表示非贪婪模式,匹配尽量少的字符。

输出结果如下:

Array
(
    [0] => 

这是一级标题

[1] =>

这是二级标题

[2] =>

这是三级标题

[3] =>

这是四级标题

[4] =>
这是五级标题
[5] =>
这是六级标题
)

可以看到,我们成功匹配了 HTML 页面中所有的 h1 ~ h6 标题。

  1. title 标签

接下来,我们来看如何匹配 title 标签中的网页标题。假设我们有以下的 HTML 代码:




    HTML 标题示例


    

这是一级标题

段落内容

笔墨写作
笔墨写作

一款专注于各类公文写作的AI写作平台

下载

这是二级标题

段落内容

我们可以使用 preg_match() 函数和正则表达式 /(.*?)/,来提取其中的网页标题:

$html = file_get_contents('example.html');
preg_match('/(.*?)/', $html, $matches);
echo $matches[1];

上述代码中,我们使用 file_get_contents() 函数读取 HTML 文件内容,然后使用 preg_match() 函数和正则表达式 /(.*?)/,来匹配其中的 title 标签。

正则表达式中的 /(.*?)/,表示匹配 title 标签内部的字符串,其中 (.*?) 表示非贪婪模式,匹配尽量少的字符。

输出结果如下:

HTML 标题示例

可以看到,我们成功匹配了 HTML 页面的网页标题。

  1. meta 标签

最后,我们来看如何匹配 meta 标签中的元数据。假设我们有以下的 HTML 代码:




    HTML 标题示例
    
    
    


    

这是一级标题

段落内容

这是二级标题

段落内容

我们可以使用 preg_match_all() 函数和正则表达式 /]+s)*names*=s*(['"]?)keywords([^>]+s)*>/,来提取其中的关键词元数据:

$html = file_get_contents('example.html');
preg_match_all('/]+s)*names*=s*(['"]?)keywords([^>]+s)*>/', $html, $matches);
print_r($matches[0]);

上述代码中,我们使用 file_get_contents() 函数读取 HTML 文件内容,然后使用 preg_match_all() 函数和正则表达式 /]+s)*names*=s*(['"]?)keywords([^>]+s)*>/,来匹配其中的关键词元数据。

正则表达式中的 /]+s)*names*=s*(['"]?)keywords([^>]+s)*>/,表示匹配 name 属性为 keywords 的 meta 标签内部的字符串。

输出结果如下:

Array
(
    [0] => 
)

可以看到,我们成功匹配了 HTML 页面中的关键词元数据。

四、总结

本文介绍了如何使用 PHP 正则表达式,匹配 HTML 页面中的不同类型的标题。通过使用 preg_match()、preg_match_all()、preg_replace() 等函数,并结合正则表达式的语法和规则,我们可以很方便地提取 HTML 代码中的相关信息,进而进行后续的处理和分析。

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
PPT动态图表制作教程大全
PPT动态图表制作教程大全

本专题整合了PPT动态图表制作相关教程,阅读专题下面的文章了解更多详细内容。

13

2026.01.07

c++ Libcurl用法详解
c++ Libcurl用法详解

本专题整合了c++ Libcurl用法详解,阅读专题下面的文章了解更多详细内容。

0

2026.01.07

c++ Libcurl用法大全
c++ Libcurl用法大全

本专题整合了c++ Libcurl用法详解,阅读专题下面的文章了解更多详细内容。

0

2026.01.07

C++ vector用法汇总
C++ vector用法汇总

本专题整合了C++中vector的用法大全,阅读专题下面的文章了解更多详细内容。

2

2026.01.07

C++ vector用法大全
C++ vector用法大全

本专题整合了C++中vector的用法大全,阅读专题下面的文章了解更多详细内容。

0

2026.01.07

2026年漫蛙最新官网地址
2026年漫蛙最新官网地址

漫蛙官网访问入口为https://manwa.me,另提供manwa.cc、manwa.vip、manwa.site等多节点备用链接,支持跨设备同步、个性化阅读及HTTPS安全加密。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

60

2026.01.07

php做exe需要在什么样的环境
php做exe需要在什么样的环境

PHP无法真正编译为EXE,所谓打包实为将解释器、脚本及依赖库封装成自解压容器;主流方案是ExeOutputforPHP(商业、Windows)和PHPDesktop(开源、跨平台),需手动处理扩展依赖、路径适配与运行时限制。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1

2026.01.07

抖音抖币官方充值渠道汇总
抖音抖币官方充值渠道汇总

抖音官方抖币充值官网入口为https://pay.douyin.com/,具备直连支付系统、全端统一鉴权、HTTPS加密传输、多设备实时同步等特性,支持微信/支付宝/银联/话费等多种支付方式及严密账户安全机制。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

5

2026.01.07

vscode创建html的教程
vscode创建html的教程

在 Visual Studio Code 中创建 HTML 文件的步骤如下:打开 VSCode并创建新文件。选择 "HTML" 模板。输入 HTML 代码。保存文件。(可选)预览文件。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

3

2026.01.07

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 8.4万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 6.9万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号