php如何阅读html_PHP中读取/解析HTML内容（DOMDocument）方法

星夢妙者

发布时间：2025-11-17 16:13:02

945人浏览过

来源于php中文网

原创

DOMDocument可解析HTML字符串或文件，结合DOMXPath提取元素，需处理编码避免乱码。1.用loadHTML()加载字符串并禁用隐式标签；2.用loadHTMLFile()读取本地文件或file_get_contents()获取远程内容；3.DOMPXPath支持CSS选择器式查询，如按class或id提取节点；4.中文乱码可通过mb_convert_encoding或添加meta charset解决。

php如何阅读html_php中读取/解析html内容（domdocument）方法

在PHP中读取和解析HTML内容，DOMDocument 是一个非常实用的内置类。它能将HTML字符串或文件加载为结构化的文档对象模型（DOM），便于遍历、修改和提取所需数据。

1. 使用 DOMDocument 加载 HTML 字符串

如果已有HTML内容（如从网络请求获取的页面源码），可以直接用 loadHTML() 方法加载：

$html = '这是第一段
这是第二段
立即学习“PHP免费学习笔记（深入）”；';
$dom = new DOMDocument();

// 加载HTML，禁用内部错误避免警告
libxml_use_internal_errors(true);
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
libxml_clear_errors();

// 获取所有 p 标签
$paragraphs = $dom->getElementsByTagName('p');
foreach ($paragraphs as $p) {
    echo $p->nodeValue . "\n"; // 输出：这是第一段  这是第二段
}

注意：使用 LIBXML_HTML_NOIMPLIED 和 LIBXML_HTML_NODEFDTD 可防止自动添加 html、body 等隐式标签，保持原始结构。

PHP与MySQL程序设计3

本书是全面讲述PHP与MySQL的经典之作，书中不但全面介绍了两种技术的核心特性，还讲解了如何高效地结合这两种技术构建健壮的数据驱动的应用程序。本书涵盖了两种技术新版本中出现的最新特性，书中大量实际的示例和深入的分析均来自于作者在这方面多年的专业经验，可用于解决开发者在实际中所面临的各种挑战。本书内容全面深入，适合各层次PHP和MySQL开发人员阅读，既是优秀的学习教程，也可用作参考手册。

下载

2. 读取本地或远程HTML文件

若需解析本地保存的HTML文件，可用 loadHTMLFile() 方法：

$dom = new DOMDocument();
libxml_use_internal_errors(true);

if ($dom->loadHTMLFile('example.html')) {
    $titles = $dom->getElementsByTagName('h1');
    foreach ($titles as $title) {
        echo $title->nodeValue . "\n";
    }
} else {
    echo "无法加载文件";
}

对于远程URL，建议先用 file_get_contents() 获取内容再加载：

$url = 'https://example.com/page.html';
$html = file_get_contents($url);

$dom = new DOMDocument();
libxml_use_internal_errors(true);
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

3. 提取特定元素（如 class 或 id）

DOMDocument 本身不支持CSS选择器，但可结合 DOMXPath 实现灵活查询：

$dom = new DOMDocument();
libxml_use_internal_errors(true);
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED);

$xpath = new DOMXPath($dom);

// 查找 class="content" 的元素
$nodes = $xpath->query('//div[@class="content"]');
foreach ($nodes as $node) {
    echo $node->textContent;
}

// 查找 id="main"
$main = $xpath->query('//[@id="main"]')->item(0);
if ($main) {
    echo $main->nodeValue;
}

4. 处理中文乱码问题

若HTML含中文出现乱码，确保在加载前声明编码：

$html = mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8');
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED);

或在HTML开头添加编码声明：

$html = '' . $html;

基本上就这些。DOMDocument 配合 DOMXPath 能高效解析结构化HTML，适合做网页抓取、内容提取或模板处理。虽语法略底层，但稳定且无需额外扩展。

HTML透明颜色代码怎么和滤镜一起用_filter加透明度的操作【教程】

HTML透明颜色代码怎么用RGBA调红色透明_RGBA红色透明值怎么算【方法】

HTML透明颜色代码在React里怎么用_React组件透明颜色设置教程【教程】

html5源代码发行不同版本区别在哪_html5版本差异详解【解答】

html5源代码发行后怎么统计访问量_流量统计工具使用方法【操作】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

css php html node 编码中文乱码 ai html文件 css选择器 php css html 字符串 class 对象 dom 选择器

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：html代码怎么验证_html表单数据验证方法与正则表达式使用下一篇：HTML5怎么制作个人简历_HTML5简历模板制作教程

作者最新文章

不锈钢保温杯内胆生水垢怎么除_水垢用白醋煮10分钟光亮如新

2025-12-31 11:23

HTML5label标签怎么关联输入框_点击触发聚焦方法【技巧】

2025-12-31 11:32

html5静态网页怎么加loading动画_页面加载提示实现【方法】

2025-12-31 11:38

Wattpad在线官网首页_Wattpad免费阅读直达链接

2025-12-31 11:41

FanFiction网页版入口大合集 2024最新官方镜像访问地址

2025-12-31 11:47

Poki宝玩怎么利用分类筛选找心仪游戏_Poki宝玩分类筛选高效玩法【窍门】

2025-12-31 11:48

小红书千帆平台网页入口小红书PC端数据分析后台地址

2025-12-31 11:51

漫蛙ManWa2防封锁入口提醒-漫蛙ManWa2永久通道2025

2025-12-31 11:58

html5如何实现页面可见性检测_visibilitychange事件用法【教程】

2025-12-31 11:59

IE浏览器如何开启小说阅读模式_IE浏览器小说模式开启【方法】

2025-12-31 12:03

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

php文件怎么打开

打开php文件步骤：1、选择文本编辑器；2、在选择的文本编辑器中，创建一个新的文件，并将其保存为.php文件；3、在创建的PHP文件中，编写PHP代码；4、要在本地计算机上运行PHP文件，需要设置一个服务器环境；5、安装服务器环境后，需要将PHP文件放入服务器目录中；6、一旦将PHP文件放入服务器目录中，就可以通过浏览器来运行它。

2044

2023.09.01