PHP 正则表达式：如何在 HTML 中匹配所有的超链接

WBOY

发布时间：2023-06-22 12:34:49

1560人浏览过

来源于php中文网

原创

在现代网络世界，网页中的超链接（hyperlink）已成为不可或缺的一部分。无论是网站还是邮件，超链接都是用户访问其他资源的重要途径。而网页中的超链接通常是通过 html 中的标签来实现的。但是，若要在 html 中找到和提取所有的超链接，该如何做呢？这时候，php 正则表达式就派上用场了。

PHP 是一种流行的 Web 开发语言，也是处理和操作 HTML 的一种有力工具。PHP 提供了一些内置函数和基本工具来解析、处理和操作 HTML 代码，其中一个重要的工具就是正则表达式。正则表达式是一种通用的字符串匹配模式，能够有效地在 HTML 中查找和过滤所需要的信息，包括超链接。

下面，我们就一步步来探讨如何使用 PHP 正则表达式来匹配所有的超链接。

使用 PHP 的 preg_match_all() 函数

在 PHP 中，使用 preg_match_all() 函数可以匹配所有的正则表达式模式，并返回匹配的结果。它的基本语法如下：

立即学习“PHP免费学习笔记（深入）”；

preg_match_all(pattern, subject, matches, flags, offset);

其中，各个参数的含义如下：

$pattern：要匹配的正则表达式模式。
$subject：要匹配的字符串。
$matches：用于保存匹配结果的数组。如果省略，则返回匹配结果。
$flags：标志位，控制匹配的行为和结果。可选项。
$offset：从字符串的哪个位置开始匹配。可选项。

要在 HTML 中匹配所有超链接，我们需要先编写一个符合超链接规则的正则表达式模式，例如：

$pattern = '@]*?s+)?href="([^"]*)"@i';

这个正则表达式模式中，使用了一个非捕获组 (?:[^>]*?s+)? 来匹配 a 标签中的其他属性，其中 (?:...) 表示非捕获组，[^>]*? 表示匹配除了 > 以外的所有字符，直到下一个 s+ 或者 > 出现，? 表示可选项。

在匹配的过程中，我们还需要找到超链接的地址，因此在模式中使用了一个捕获组 ([^"]*)，它表示匹配所有不含 " 的字符。最后使用 @ 做模式分隔符，并添加标志位 i 表示忽略大小写的匹配。

接下来，我们可以使用 preg_match_all() 函数来匹配 HTML 中的所有超链接，例如：

$html = file_get_contents('http://www.example.com');
$pattern = '@]*?s+)?href="([^"]*)"@i';
preg_match_all($pattern, $html, $matches);
print_r($matches[1]);

在例子中，我们使用了文件流（file stream）函数 file_get_contents() 来获取 Web 页面的 HTML 内容，并将其存储到 $html 变量中。然后使用我们之前编写的正则表达式匹配所有的超链接地址，并将结果存储在 $matches 数组中的第 1 个元素中。最后，我们使用 print_r() 函数来打印所有匹配到的超链接地址。

使用 DOM 解析器

除了使用正则表达式，还可以使用 PHP 内置的 DOM 解析器来解析 HTML 文档。DOM（Document Object Model，文档对象模型）是一种基于树形结构的 XML/HTML 解析器，可以将 HTML 文档解析成 DOM 元素节点的树形结构，从而方便地操作和查找 HTML 中的内容和元素。

CoCo

智谱AI推出的首个有记忆的企业自主Agent智能体

下载

要使用 PHP 中的 DOM 解析器来查找 HTML 中的所有超链接，可以按照以下步骤进行：

首先，我们需要创建一个 DOMDocument 对象来加载 HTML 文档。例如：

$doc = new DOMDocument();
$doc->loadHTMLFile('http://www.example.com');

这里使用了 DOMDocument 类中的 loadHTMLFile() 方法来加载并解析 HTML 文档。加载完成后，我们可以使用 getElementsByTagName() 方法来获取所有的标签元素。例如：

$links = $doc->getElementsByTagName('a');
foreach ($links as $link) {
  echo $link->getAttribute('href') . '
';
}

在这里，我们使用了 foreach 循环遍历所有的标签元素，并使用 getAttribute() 方法获取每个超链接元素的 href 属性值。最后，使用 echo 输出每个超链接地址。

使用 XPath 解析器

除了 DOM 解析器外，PHP 中还提供了另一个基于 XPath（XML Path Language，XML 路径语言）的解析器——DOMXPath。XPath 是一种在 XML/HTML 文档中，用于选择和查找节点的一门语言。DOMXPath 利用 XPath 语言的选择功能，可以方便地选取和过滤 HTML 文档中的元素和属性。

要使用 DOMXPath 来匹配所有 HTML 中的超链接，可以按照以下步骤进行。

首先需要创建一个 DOMDocument 对象，然后通过 DOMXPath 的相应方法来解析 XPath 表达式，最后获取匹配结果。

例如，以下代码片段使用 XPath 表达式 //a[@href] 来匹配所有的标签，并且只获取其中带有 href 属性的元素：

$doc = new DOMDocument();
$doc->loadHTMLFile('http://www.example.com');
$xpath = new DOMXPath($doc);
$links = $xpath->query('//a[@href]');
foreach ($links as $link) {
  echo $link->getAttribute('href') . '
';
}

在这个代码片段中，我们先创建了一个 DOMDocument 对象并加载 HTML 页面，然后创建了一个 DOMXPath 对象。使用 query() 方法来解析 XPath 表达式，返回一个 DOMNodeList 对象，其中包含了所有匹配的元素节点。最后使用 foreach 循环遍历所有的标签元素，并使用 getAttribute() 方法获取每个超链接元素的 href 属性值。最后，使用 echo 输出每个超链接地址。

总结

无论是使用正则表达式、DOM 解析器还是 XPath 解析器，都可以方便地在 HTML 中匹配和提取所有的超链接信息。不过，需要注意的是，在使用正则表达式时，由于 HTML 语言的复杂性和不规则性，需要针对具体情况编写相应的正则表达式模式，以确保匹配结果的准确性和可靠性。针对特定的场景和需求，可以选择合适的工具来进行 HTML 解析和处理，以便更好地满足项目的业务需求。

如何在PHP表单提交后安全返回并显示验证错误信息

PHP怎样获取当前时间戳_获取当前时间戳的详细方法【教程】

PHP怎样操作字符串_常用字符串处理函数汇总【详解】

PHP怎样创建类与对象_创建类与对象的基础语法【解析】

PHP怎样调用系统命令_调用系统命令的安全考量【安全】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

php文件怎么打开

打开php文件步骤：1、选择文本编辑器；2、在选择的文本编辑器中，创建一个新的文件，并将其保存为.php文件；3、在创建的PHP文件中，编写PHP代码；4、要在本地计算机上运行PHP文件，需要设置一个服务器环境；5、安装服务器环境后，需要将PHP文件放入服务器目录中；6、一旦将PHP文件放入服务器目录中，就可以通过浏览器来运行它。

2746

2023.09.01