如何读取html_读取HTML文件内容或元素的技巧【指南】

絕刀狂花

发布时间：2026-01-09 18:25:22

996人浏览过

来源于php中文网

原创

fetch 读取本地 HTML 文件触发 CORS 错误是因 file:// 协议被浏览器禁止跨域请求，解决方法是部署到本地 HTTP 服务或改用 XMLHttpRequest；DOMParser 解析 HTML 字符串更安全；Node.js 中需用 fs 读取文件并注意编码与路径。

如何读取html_读取html文件内容或元素的技巧【指南】

用 `fetch` 读取本地 HTML 文件会触发 CORS 错误

浏览器直接用 fetch('./page.html') 加载本地 HTML 文件时，如果页面是通过 file:// 协议打开的，绝大多数现代浏览器会拒绝请求，并抛出类似 Blocked by CORS policy: Cross origin requests are only supported for protocol schemes: http, data, chrome, chrome-extension, https. 的错误。

这不是代码写错了，而是浏览器安全策略限制——file:// 协议不被视作合法的跨域请求源。解决方法只有两个：

把页面部署到本地 HTTP 服务上（推荐），比如用 npx serve、python3 -m http.server 或 VS Code 的 Live Server 插件
改用 XMLHttpRequest 并设置 responseType = 'document'（仅限同源且非 file:// 场景）

别试图用 readAsText + FileReader 去读取用户选择的 HTML 文件——那只能用于显式选取的场景，不适用于预设路径加载。

用 `DOMParser` 解析 HTML 字符串比 `innerHTML` 更安全可靠

当你拿到一段 HTML 字符串（比如从 fetch 返回的 text() 结果），想提取其中的或某个 class="content" 元素，不要直接往 div.innerHTML 里塞再查——这会执行内联脚本、触发图片加载、污染当前页面 DOM。

立即学习“前端免费学习笔记（深入）”；

DOMParser 是专为此设计的轻量级解析器，它生成的是独立文档对象，完全隔离：

const parser = new DOMParser();
const doc = parser.parseFromString(htmlString, 'text/html');
const title = doc.querySelector('title')?.textContent;
const mainContent = doc.querySelector('.content')?.outerHTML;

注意两点：

MIME 类型必须写成 'text/html'，写成 'application/xml' 或漏掉会导致解析失败或行为异常
doc 是完整文档，所以 querySelector 能直接匹配和下的元素，无需额外包裹

Node.js 环境下读取 HTML 文件要用 `fs.readFileSync` 或 `fs.promises.readFile`

在 Node.js 里没有 fetch，也不能用 DOMParser（原生不支持），得靠第三方库补全 DOM 能力。但第一步永远是把文件内容读成字符串：

堆友

Alibaba Design打造的设计师全成长周期服务平台，旨在成为设计师的好朋友

下载

const fs = require('fs');
const html = fs.readFileSync('./index.html', 'utf8');

或者用 Promise 版本：

const { readFile } = require('fs').promises;
const html = await readFile('./index.html', 'utf8');

常见坑：

忘记传 'utf8' 编码参数，结果得到 Buffer，后续 parseFromString 会报错
路径写相对路径却没注意工作目录（process.cwd()），建议用 path.resolve(__dirname, 'index.html') 定位

之后才能交给 jsdom 或 cheerio 处理。例如 cheerio 的典型用法：

const $ = require('cheerio');
const html = fs.readFileSync('./index.html', 'utf8');
const $html = $.load(html);
const title = $html('title').text();

用 `cheerio` 提取元素比原生 DOM API 更适合服务端批量处理

如果你在 Node.js 中要批量分析几十个 HTML 文件、提取标题、链接、元数据，cheerio 是更优选择：它模拟了 jQuery API，语法简洁，不渲染、不执行 JS、内存占用低。

对比 jsdom：

cheerio 没有 window、document 全局对象，不能运行脚本，但解析速度通常快 3–5 倍
cheerio.load() 返回的是“伪 DOM”，所有选择器操作都基于字符串分析，因此不支持 :has()、:nth-child(2n) 等复杂 CSS4 伪类（除非升级到 v1.0+ 并启用 xmlMode: false）
若 HTML 不规范（如自闭合标签写成而非），cheerio 默认能容错，DOMParser 在严格模式下可能报错

一个真实场景示例：提取所有带 href 的外链，并排除站内路径：

const $ = require('cheerio');
const html = fs.readFileSync('page.html', 'utf8');
const $html = $.load(html);
const externalLinks = [];
$html('a[href]').each((i, el) => {
  const href = $html(el).attr('href');
  if (href && /^https?:\/\//.test(href)) {
    externalLinks.push(href);
  }
});

实际处理 HTML 时，最易被忽略的是编码识别——特别是老站点用 gbk 或 big5 编码却没声明，这时 fs.readFileSync 或 fetch 拿到的内容会乱码，后续所有解析都失效。遇到这类情况，得先用 iconv-lite 或 encoding-sniffer 探测真实编码再转 UTF-8。

实现 TikTok 风格的垂直视频分屏滚动（每屏固定一个视频并自动吸附）

如何将搜索栏移至导航栏右侧

如何将搜索栏精准定位到导航栏右侧

如何将搜索栏精准对齐到导航栏最右侧

html5如何布局FFC_html5弹性格式化上下文指南

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：HTML5如何适配夏普手机_HTML5在夏普安卓机上的适配方式【教学】下一篇：html5video标签如何全屏播放_js触发全屏api操作方法【技巧】

作者最新文章

HTML透明颜色代码怎么设置全透明_完全看不见的透明值是多少【说明】

2026-01-09 18:44

如何让HTML5动画自动适应屏幕_HTML5自适应布局技巧【布局教程】

2026-01-09 18:53

夸克浏览器网站收录后没排名怎么办_提升权重的技巧【解答】

2026-01-09 19:01

UC浏览器官方网址2026入口 UC浏览器网页版永久地址

2026-01-09 19:25

HTML5如何适配三星手机_HTML5在三星设备中的适配策略【说明】

2026-01-09 19:37

HTML5结构标签有哪些_常用语义化标签清单及适用场景【汇总】

2026-01-09 19:43

百度浏览器如何屏蔽百度联盟广告_关闭合作推广的步骤【汇总】

2026-01-09 19:44

CSS3怎么实现垂直居中_多种方法汇总flex绝对定位【详解】

2026-01-09 19:45

quotev网页版登录入口 quotev中文用户专属入口2026

2026-01-09 19:48

百度浏览器怎么搜到完整版小说_避免删减版的技巧【汇总】

2026-01-09 21:11

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

jquery插件有哪些

jquery插件有jQuery UI、jQuery Validate、jQuery DataTables、jQuery Slick、jQuery LazyLoad、jQuery Countdown、jQuery Lightbox、jQuery FullCalendar、jQuery Chosen和jQuery EasyUI等。本专题为大家提供jquery插件相关的文章、下载、课程内容，供大家免费下载体验。

150

2023.09.12

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

309

2023.10.13

jquery删除元素的方法

jquery可以通过.remove() 方法、 .detach() 方法、.empty() 方法、.unwrap() 方法、.replaceWith() 方法、.html('') 方法和.hide() 方法来删除元素。更多关于jquery相关的问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

393

2023.11.10