使用PHP DOMDocument解析HTML并提取元素及其内容与属性

DDD

发布时间：2025-11-11 11:42:16

299人浏览过

来源于php中文网

原创

使用php domdocument解析html并提取元素及其内容与属性

本文详细介绍了如何利用PHP的`DOMDocument`类来高效地解析HTML字符串，并从中提取所有子元素的名称、内容及其属性。通过具体的代码示例，我们将学习如何加载HTML、遍历DOM树以获取任意层级的元素信息，以及如何针对特定元素提取其包含的属性，从而实现对复杂HTML结构的精准数据抓取。

在Web开发中，我们经常需要从HTML内容中提取特定的数据，例如链接、文本或者其他元素。PHP的DOMDocument类提供了一个强大且标准化的方式来解析和操作HTML及XML文档。本教程将深入探讨如何使用DOMDocument来获取一个给定HTML元素内部的所有子元素及其内容和属性。

理解DOMDocument与HTML解析

DOMDocument是PHP内置的DOM扩展的一部分，它允许我们将HTML或XML文档视为一个树状结构（Document Object Model）。通过这个模型，我们可以像操作JavaScript中的DOM一样，访问、修改和遍历文档中的各个节点（元素、属性、文本等）。

当面对一个包含未知数量和类型子标签的HTML片段时，例如一个

标签内部可能包含、

、等多种标签，我们需要一种通用的方法来提取这些信息。简单地获取 nodeValue可能只会返回纯文本内容，而丢失了内部标签的结构和属性信息。

立即学习“PHP免费学习笔记（深入）”；

加载HTML内容

首先，我们需要将HTML字符串加载到DOMDocument对象中。loadHTML()方法是完成此任务的关键。

test1Test2";
$dom = new DOMDocument();
// 设置内部字符编码，避免中文乱码等问题
@$dom->loadHTML('' . $html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
// 或者直接加载，但在某些情况下可能导致HTML结构被DOMDocument自动修正
// $dom->loadHTML($html);
?>

注意事项：

loadHTML()方法在解析不完整的HTML片段时，可能会自动添加html>、、等标签。为了避免这种情况，我们可以使用LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD选项，并可选地在HTML前添加XML声明以帮助DOMDocument正确识别编码。
@符号用于抑制loadHTML可能产生的警告，尤其是在处理非标准或不完整的HTML时。

遍历所有子元素并获取信息

一旦HTML被加载，我们就可以开始遍历DOM树。getElementsByTagName('*')是一个非常有用的方法，它可以获取文档中所有标签名的元素。通过迭代这些元素，我们可以访问每个元素的名称、值以及其他属性。

test1Test2";
$dom = new DOMDocument();
@$dom->loadHTML('' . $html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

// 获取所有元素节点
foreach ($dom->getElementsByTagName('*') as $element) {
    echo "--- 元素信息 ---
";
    echo "标签名: " . $element->nodeName . "
";
    echo "节点值 (textContent): " . $element->textContent . "
"; // 获取元素及其所有子元素的纯文本内容
    // 如果需要更详细的调试信息，可以使用 print_r($element);
    // print_r($element);
    echo "
";
}
?>

上述代码将输出每个元素的标签名和其包含的纯文本内容。textContent属性会返回元素及其所有后代元素的文本内容，这对于获取元素内部的可见文本非常有用。

Dompdf

dompdf是一个HTML到PDF转换器。在其核心，dompdf是一个（大部分）符合CSS 2.1标准的HTML布局和渲染引擎，使用PHP编写。它是一个以样式驱动的渲染器，它会下载并读取外部样式表，内联样式标签和单个HTML元素的样式属性。它还支持大多数表现性HTML属性。PDF渲染目前由PDFLib或由Wayne Munro编写的捆绑版本的R&OS CPDF类提供。（对R&OS类进行了一些重要的更改，但是）。为了使用dompdf与PDFLib，需要安装PDFLib PECL扩展。使用PD

下载

获取特定元素的属性信息

仅仅知道元素的标签名和文本内容可能不够。很多时候，我们还需要提取元素的属性，例如标签的href属性或使用PHP DOMDocument解析HTML并提取元素及其内容与属性标签的src属性。DOMElement对象提供了hasAttributes()方法来检查元素是否包含属性，以及attributes属性来访问所有属性。

test1Test2";
$dom = new DOMDocument();
@$dom->loadHTML('' . $html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

// 假设我们想获取第一个 'a' 标签的属性
$anchorElements = $dom->getElementsByTagName('a');

if ($anchorElements->length > 0) {
    $p = $anchorElements->item(0); // 获取第一个 'a' 元素
    echo "--- 'a' 标签属性信息 ---
";
    if ($p->hasAttributes()) {
        foreach ($p->attributes as $attr) {
            $name = $attr->nodeName;
            $value = $attr->nodeValue;
            echo "属性 '$name' :: '$value'
";
        }
    } else {
        echo "该 'a' 标签没有属性。
";
    }
} else {
    echo "未找到 'a' 标签。
";
}
?>

在这个例子中，我们首先通过getElementsByTagName('a')获取所有标签的集合。然后，我们取出第一个标签，并检查它是否含有属性。如果存在属性，我们遍历attributes集合，获取每个属性的名称（nodeName）和值（nodeValue）。

结合使用：从特定父元素开始遍历

如果我们的目标是从一个已知的父元素（例如，最初问题中提到的

）内部开始提取信息，我们可以先定位到这个父元素，然后在其子树中进行遍历。

外部内容

test1

Test2

"; $dom = new DOMDocument(); @$dom->loadHTML('' . $html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD); // 获取第一个 'td' 元素 $tdElements = $dom->getElementsByTagName('td'); if ($tdElements->length > 0) { $td = $tdElements->item(0); // 获取到目标 td 元素 echo "--- 从 'td' 内部开始遍历 ---
"; // 遍历 td 元素的所有子元素（包括自身，如果需要） // 注意：getElementsByTagName('*')在DOMElement上调用时，会返回该元素的所有后代元素，不包括自身 foreach ($td->getElementsByTagName('*') as $element) { echo "标签名: " . $element->nodeName . ", 内容: " . $element->textContent . "
"; if ($element->hasAttributes()) { echo " - 属性: "; $attrs = []; foreach ($element->attributes as $attr) { $attrs[] = $attr->nodeName . "='" . $attr->nodeValue . "'"; } echo implode(', ', $attrs) . "
"; } } } else { echo "未找到 'td' 元素。
"; } ?>

通过在$td对象上调用getElementsByTagName('*')，我们确保只遍历

标签内部的元素，而不是整个文档。