js 如何解析HTML字符串

煙雲

发布时间：2025-08-17 11:33:01

960人浏览过

来源于php中文网

原创

最推荐的方式是使用domparser，因为它安全、标准且能生成完整的document对象；2. 其次可使用临时元素结合innerhtml，虽简洁高效但存在xss风险；3. 对于需高效插入的场景，推荐document.createrange().createcontextualfragment()，因其返回轻量级documentfragment并减少dom重排；4. 安全方面必须防范xss攻击，避免直接插入未经净化的html，应使用dompurify等库进行净化处理；5. 性能上innerhtml对小片段最快，domparser适合完整文档解析，createcontextualfragment在大量节点插入时最优；6. 解析后可通过queryselector、textcontent、dataset等标准dom方法高效提取和操作数据，建议减少dom操作次数并优先使用安全的文本属性如textcontent。

js 如何解析HTML字符串

在JavaScript里，将HTML字符串转化为可操作的DOM结构，最常见且推荐的方式是利用

DOMParser

接口，或者通过创建临时元素并赋值

innerHTML

来间接实现。这两种方法都能让你把纯文本的HTML片段变成浏览器可以理解和操作的对象模型，进而进行各种DOM操作，比如查找元素、修改内容或者提取数据。

解决方案

把HTML字符串变成浏览器能理解的DOM节点，这事儿在前端开发里其实挺常见的。我个人比较偏爱

DOMParser

，因为它感觉上更“干净”一些，专门为解析而生。

1. 使用

DOMParser

立即学习“前端免费学习笔记（深入）”；

这是我首推的方法，因为它提供了一个标准、安全且功能强大的方式来解析各种XML和HTML文本。它会把你的HTML字符串解析成一个完整的

Document

对象，就像浏览器加载一个页面一样。

function parseHtmlStringWithDOMParser(htmlString) {
    const parser = new DOMParser();
    // 'text/html' 是关键，告诉解析器按HTML规则来
    const doc = parser.parseFromString(htmlString, 'text/html');
    // 你现在可以像操作 document 对象一样操作这个 doc
    // 比如，获取 body 里的第一个元素
    return doc.body.children.length > 0 ? doc.body.children[0] : doc;
}

const htmlContent = '你好，世界！
这是DOM解析的';
const parsedElement = parseHtmlStringWithDOMParser(htmlContent);

console.log(parsedElement.querySelector('.intro').textContent); // 输出: 你好，世界！
console.log(parsedElement.querySelector('#greeting').textContent); // 输出: 这是DOM解析的

优点：

标准和安全：
```
DOMParser
```
解析的HTML字符串中的
```
script
```
标签默认不会立即执行，除非你手动将解析后的节点插入到文档中。这在处理来自不可信源的HTML时非常重要。
完整文档结构： 它返回一个完整的
```
Document
```
对象，即使你的字符串只是一个片段，它也会为你构建一个包含
```
html
```
,
```
head
```
,
```
body
```
的完整结构，这对于某些需要上下文的解析场景很有用。
支持多种MIME类型： 不仅仅是HTML，XML、SVG等都可以用它解析。

2. 利用临时元素和

innerHTML

这种方法非常直观，也是很多人最先想到的。你创建一个临时的DOM元素（比如一个

div

），然后把HTML字符串赋值给它的

innerHTML

属性。浏览器引擎会自动解析这个字符串，并将其转换为该临时元素的子节点。

function parseHtmlStringWithInnerHTML(htmlString) {
    const tempDiv = document.createElement('div');
    tempDiv.innerHTML = htmlString;
    // 如果你的HTML字符串只有一个根元素，可以直接返回它的第一个子元素
    // 如果是多个平级元素，tempDiv.children 会是一个 HTMLCollection
    return tempDiv.children.length === 1 ? tempDiv.firstElementChild : tempDiv;
}

const htmlContentFragment = '这是一个消息。
链接';
const parsedFragmentContainer = parseHtmlStringWithInnerHTML(htmlContentFragment);

console.log(parsedFragmentContainer.querySelector('.message').textContent); // 输出: 这是一个消息。
console.log(parsedFragmentContainer.querySelector('a').href); // 输出: (当前页面的URL加上#)

优点：

简洁易懂： 代码量少，逻辑直接。
性能： 对于简单的HTML片段，浏览器内部优化使得
```
innerHTML
```
赋值通常非常快。

缺点：

安全风险： 如果
```
htmlString
```
来自用户输入或不可信源，直接赋值给
```
innerHTML
```
会带来XSS（跨站脚本攻击）的风险，因为其中的
```
script
```
标签可能会被执行。
上下文问题： 解析的是片段，没有完整的
```
Document
```
上下文。例如，
、
、
等标签在
```
div.innerHTML
```
中会被忽略。

3. 使用

document.createRange().createContextualFragment()

这个方法可能不那么常用，但它在某些场景下非常高效，特别是当你需要将HTML片段插入到现有文档中时。它创建的是一个

DocumentFragment

，一个轻量级的文档容器，不会在DOM树中额外增加节点。

function parseHtmlStringWithFragment(htmlString) {
    // 创建一个Range对象
    const range = document.createRange();
    // 设置Range的上下文，通常是当前文档的body，但也可以是其他元素
    range.selectNode(document.body); // 或者 range.setStart(document.body, 0);
    // 创建一个包含解析后HTML的DocumentFragment
    const fragment = range.createContextualFragment(htmlString);
    return fragment;
}

const htmlContentToInsert = '项目1
项目2';
const parsedFragment = parseHtmlStringWithFragment(htmlContentToInsert);

// parsedFragment 现在是一个 DocumentFragment，你可以直接把它添加到DOM中
// document.body.appendChild(parsedFragment); // 这样会把 ul 和 li 添加到 body
// 也可以像操作其他DOM元素一样操作它
console.log(parsedFragment.querySelector('li').textContent); // 输出: 项目1

优点：

高效插入：
```
DocumentFragment
```
在插入到实际DOM中时，其子节点会被直接移动到目标位置，而不是
```
DocumentFragment
```
本身，这减少了DOM操作的开销，尤其是在插入大量节点时。
安全： 类似于
```
DOMParser
```
，它解析的
```
script
```
标签通常不会直接执行。
上下文感知：
```
createContextualFragment
```
会根据
```
Range
```
的上下文来解析HTML，这在处理某些CSS或HTML特性时可能有用。

解析HTML字符串时，我需要注意哪些安全问题？

当我们在JavaScript里处理HTML字符串，特别是这些字符串的来源不完全可信时，安全问题绝对是重中之重。最突出的一个威胁就是XSS（跨站脚本攻击）。

简单来说，XSS就是攻击者通过注入恶意脚本到你的页面，从而窃取用户数据、劫持会话，甚至进行钓鱼攻击。当你把一个包含恶意代码的HTML字符串直接变成DOM节点并插入到页面中时，就可能给攻击者敞开大门。

核心风险点：

innerHTML
的滥用：这是最常见的XSS入口。如果你的HTML字符串里有
，或者更隐蔽的如
```
@@##@@
```
，直接赋值给
```
element.innerHTML
```
，这些脚本或事件处理函数就会在浏览器解析时执行。
属性注入： 攻击者可能通过注入HTML属性来执行代码，比如
```
点击我
```
。
URL注入： 某些HTML标签的属性（如
```
href
```
、
```
src
```
）可以包含
```
javascript:
```
伪协议，如果你的代码不加检查地将用户提供的URL赋值给这些属性，也会导致XSS。

如何防范：

永远不要直接使用来自不可信源的HTML字符串赋值给
```
innerHTML
```
。如果非要用，请务必进行严格的净化（Sanitization）。

使用专业的HTML净化库： 例如，DOMPurify 是一个非常强大且广泛使用的库，它可以帮助你移除HTML字符串中的恶意代码，只保留安全的标签和属性。

// 假设你已经引入了 DOMPurify 库
import DOMPurify from 'dompurify';

const unsafeHtml = '@@##@@安全内容

							
								
								
									TapNow
									新一代AI视觉创作引擎
								
								下载 
							
						';
const safeHtml = DOMPurify.sanitize(unsafeHtml);
// 现在你可以安全地将 safeHtml 插入到 DOM 中
document.getElementById('content').innerHTML = safeHtml;

优先使用
```
DOMParser
```
或
createContextualFragment
进行解析，但后续操作仍需谨慎：虽然它们在解析阶段不会立即执行脚本，但如果你随后将解析出的节点直接插入到文档中，并且这些节点包含可执行内容（比如事件监听器），仍然存在风险。解析只是第一步，后续的DOM操作和插入才是真正的安全考量点。

避免在客户端拼接HTML字符串： 尽量通过创建DOM元素并设置其属性和文本内容来构建DOM，而不是拼接HTML字符串。这样可以从根本上避免HTML注入问题。

// 推荐的做法
const div = document.createElement('div');
const p = document.createElement('p');
p.textContent = userInputText; // 使用 textContent 比 innerHTML 更安全
div.appendChild(p);
document.body.appendChild(div);

CSP（内容安全策略）： 在服务器端配置CSP头部，可以进一步限制页面上可执行的脚本来源，即使XSS攻击发生，也能降低其危害。

不同的解析方法在性能上有什么区别，我该如何选择？

谈到性能，这其实是一个比较微妙的话题，因为“快”和“慢”往往取决于具体的场景、HTML字符串的大小和复杂度，以及浏览器本身的实现。但我们还是可以大致聊聊它们的倾向性。

innerHTML

方法：

倾向： 通常来说，对于相对较小且简单的HTML片段，
```
innerHTML
```
的赋值操作会非常快。浏览器引擎对它有高度优化，因为它是一个非常基础且常用的DOM操作。它直接利用了浏览器原生的HTML解析器，效率很高。
选择考量：
- 优点： 简洁、高效，适合处理小段、结构清晰且来源可信的HTML片段。
- 缺点： 安全风险高（XSS），不适合处理包含
  、
  、
  等完整文档结构的字符串（这些标签会被忽略）。当HTML字符串非常大时，一次性赋值可能会导致短暂的UI阻塞，因为浏览器需要一次性解析并渲染所有内容。

DOMParser

方法：

倾向： 相较于
```
innerHTML
```
，
```
DOMParser
```
在解析非常小的HTML片段时，可能会有轻微的额外开销，因为它需要创建一个完整的
```
Document
```
对象。但对于解析大型、复杂的HTML文档，或者你需要一个严格的、符合W3C标准的DOM结构时，它的优势就显现出来了。它的解析过程是同步的。
选择考量：
- 优点： 安全性高（不执行脚本），解析结果是完整的
```
Document
```
  对象，适合处理外部HTML文件、XML数据，或者需要对整个文档结构进行分析的场景。
- 缺点： 对于仅仅想获取一个DOM片段的场景，可能略显“重型”，因为它会构建一个完整的文档树。

document.createRange().createContextualFragment()

方法：

倾向： 这个方法在性能上介于前两者之间，并且在特定场景下表现优异。它创建的是一个
```
DocumentFragment
```
，这是一种非常高效的DOM操作方式。当
```
DocumentFragment
```
被插入到实际DOM中时，只有它的子节点被移动，
```
DocumentFragment
```
本身不会成为DOM树的一部分，这减少了DOM重绘和重排的次数。
选择考量：
- 优点： 插入大量节点时性能优势明显，因为它避免了多次DOM操作。安全性比
```
innerHTML
```
  好。适合于你需要将一个或多个HTML节点高效地插入到现有文档中的情况。
- 缺点： 语法相对复杂一点，不如
```
innerHTML
```
  直观。

如何选择？我的个人建议：

安全性优先： 如果HTML字符串来自用户输入或任何不可信的外部源，
```
DOMParser
```
结合后续的DOMPurify净化是首选。永远不要直接将未经净化的外部HTML赋值给
```
innerHTML
```
。
简单片段，快速插入： 如果你确定HTML字符串是安全的（比如是你自己代码里硬编码的），并且它只是一个简单的DOM片段，
```
innerHTML
```
可能是最快的选择，因为它非常直接。
大量节点，高效插入： 当你需要将一个包含多个兄弟节点的复杂HTML片段插入到现有DOM中，并且希望性能最优时，
```
createContextualFragment
```
是很好的选择。它能避免不必要的DOM操作开销。
完整文档解析： 如果你的目标是解析一个完整的HTML文档（例如，从一个AJAX请求中获取的整个HTML页面），
```
DOMParser
```
无疑是最佳选择。

实际开发中，我通常会先从安全性角度出发，如果能用

DOMParser

，我就用它。如果只是内部使用的、确定无害的简单片段，我可能会为了便利性考虑

innerHTML

，但心里会敲响安全警钟。

解析后的HTML如何高效地操作和提取数据？

一旦你通过上述任何一种方法将HTML字符串成功解析成了DOM对象（可能是

Document

对象、

HTMLElement

对象或

DocumentFragment

），接下来的任务就是如何高效地在这些对象中进行查找、操作和数据提取。这和我们平时操作

Document

对象没什么两样，因为它们本质上都是遵循W3C DOM标准的。

1. 查找和选择元素：

这是最基础也是最常用的操作。

querySelector()
和
querySelectorAll()
：这是我最常用的方法，它们接受CSS选择器作为参数，非常强大和灵活。
- ```
parsedElement.querySelector('.some-class')
```
  : 返回匹配选择器的第一个元素。
- ```
parsedElement.querySelectorAll('div > p')
```
  : 返回所有匹配选择器的元素（一个
```
NodeList
```
  ）。
getElementById()
：如果你知道元素的ID，这是最直接且高效的查找方式。
- ```
parsedElement.getElementById('my-id')
```

getElementsByClassName()
和
getElementsByTagName()
：它们返回一个“活的”

HTMLCollection

，这意味着当DOM结构变化时，它们会自动更新。

parsedElement.getElementsByClassName('item')

parsedElement.getElementsByTagName('li')

示例：查找特定数据

假设我们解析了一个包含产品列表的HTML字符串：

const htmlString = `

    
        产品A
        $19.99
    
    
        产品B
        $29.99
    

`;

const parser = new DOMParser();
const doc = parser.parseFromString(htmlString, 'text/html');

// 找到所有产品
const productItems = doc.querySelectorAll('.product-item');

const productsData = [];
productItems.forEach(item => {
    const id = item.dataset.id; // 获取 data-id 属性
    const name = item.querySelector('.product-name').textContent;
    const price = item.querySelector('.product-price').textContent;
    productsData.push({ id, name, price });
});

console.log(productsData);
/* 输出:
[
  { id: '101', name: '产品A', price: '$19.99' },
  { id: '102', name: '产品B', price: '$29.99' }
]
*/

2. 提取数据：

一旦你找到了目标元素，提取数据就非常直接了。

textContent
：获取元素及其所有子元素的纯文本内容，不包含HTML标签。这是最安全的文本提取方式。
innerText
：类似
```
textContent
```
，但它会考虑CSS样式，比如隐藏的元素内容不会被获取。
innerHTML
：获取元素的内部HTML字符串，包含子元素的所有HTML标签。如果需要提取HTML片段，这个很有用，但注意安全问题。
getAttribute(attributeName)
：获取元素的某个属性值，比如
```
href
```
、
```
src
```
、
```
alt
```
等。
dataset
：方便地访问
```
data-*
```
自定义属性。例如，
```
element.dataset.id
```
会获取
```
data-id
```
的值。

3. 修改和操作元素：

解析后的DOM对象完全支持标准的DOM操作API。

创建新元素：
```
document.createElement('div')
```

添加/移除子元素：

appendChild()

removeChild()

insertBefore()

修改属性：
```
setAttribute()
```
,
```
removeAttribute()
```

修改内容：

textContent = '新内容'

innerHTML = '新HTML'

修改样式：

element.style.color = 'red'

element.classList.add('active')

高效操作的几点思考：

减少DOM操作次数： 尤其是在将解析后的内容插入到主文档时，尽量一次性操作。
```
DocumentFragment
```
在这方面表现出色。
使用合适的选择器：
```
querySelector
```
/
```
querySelectorAll
```
通常是首选，因为它们灵活且性能良好。
遍历NodeList：
```
querySelectorAll
```
返回的是
```
NodeList
```
，你可以用
```
forEach
```
方法遍历它，或者将其转换为数组再操作（
```
Array.from(nodeList)
```
）。
链式操作： 结合现代JavaScript的链