如何从HTML字符串中提取特定div元素的data-template属性值及其内容?

霞舞
发布: 2025-03-01 19:42:01
原创
1028人浏览过

如何从HTML字符串中提取特定div元素的data-template属性值及其内容?

高效提取html字符串中的特定数据

本文介绍如何从一段HTML字符串中提取特定结构的数据。假设HTML包含多个<div>元素,每个元素都具有<code>class="template_content"data-template属性。我们的目标是从这段HTML中提取这些<div>元素的<code>data-template属性值及其内容。

例如,我们有如下HTML字符串:

<div class="template_content" data-template="template1">
  ...<div>内容1aaa</div><div>内容1bbb</div>...
</div>
<h3>标题1</h3>
<div class="template_content" data-template="template2">
  <p>内容2</p>
</div>
<h3>标题2</h3>
<div class="template_content" data-template="template3">
  <p>内容3</p><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/cb6835dc7db1" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">前端免费学习笔记(深入)</a>”;</p>
</div>
<h3>标题3</h3>
<div class="template_content" data-template="template4">
  <p>内容4</p>
</div>
登录后复制

我们需要提取以下格式的数据:

{ "data-template": "(提取内容1)", "content": "(提取内容2)" }
登录后复制

其中,“提取内容1”对应data-template属性值,“提取内容2”对应<div>标签包含的内容。 <p>虽然可以使用正则表达式,但为了更稳健地处理HTML内容,建议使用DOM解析器。以下JavaScript代码演示了如何使用DOMParser实现这一目标:</p> <div class="aritcle_card"> <a class="aritcle_card_img" href="/ai/942"> <img src="https://img.php.cn/upload/ai_manual/000/000/000/175679998863788.png" alt="Operator"> </a> <div class="aritcle_card_info"> <a href="/ai/942">Operator</a> <p>OpenAI推出的AI智能体工具</p> <div class=""> <img src="/static/images/card_xiazai.png" alt="Operator"> <span>231</span> </div> </div> <a href="/ai/942" class="aritcle_card_btn"> <span>查看详情</span> <img src="/static/images/cardxiayige-3.png" alt="Operator"> </a> </div> <div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false;">let html = ` &lt;div class=&quot;template_content&quot; data-template=&quot;template1&quot;&gt; ...&lt;div&gt;内容1aaa&lt;/div&gt;&lt;div&gt;内容1bbb&lt;/div&gt;... &lt;/div&gt; &lt;h3&gt;标题1&lt;/h3&gt; &lt;div class=&quot;template_content&quot; data-template=&quot;template2&quot;&gt; &lt;p&gt;内容2&lt;/p&gt; &lt;/div&gt; &lt;h3&gt;标题2&lt;/h3&gt; &lt;div class=&quot;template_content&quot; data-template=&quot;template3&quot;&gt; &lt;p&gt;内容3&lt;/p&gt;&lt;p&gt;&lt;span&gt;立即学习&lt;/span&gt;“&lt;a href=&quot;https://pan.quark.cn/s/cb6835dc7db1&quot; style=&quot;text-decoration: underline !important; color: blue; font-weight: bolder;&quot; rel=&quot;nofollow&quot; target=&quot;_blank&quot;&gt;前端免费学习笔记(深入)&lt;/a&gt;”;&lt;/p&gt; &lt;/div&gt; &lt;h3&gt;标题3&lt;/h3&gt; &lt;div class=&quot;template_content&quot; data-template=&quot;template4&quot;&gt; &lt;p&gt;内容4&lt;/p&gt; &lt;/div&gt; `; const parser = new DOMParser(); const doc = parser.parseFromString(html, 'text/html'); const divs = doc.querySelectorAll('div.template_content'); const extractedData = []; divs.forEach(div => { const template = div.getAttribute('data-template'); const content = div.innerHTML; extractedData.push({ "data-template": template, "content": content }); }); console.log(extractedData);</pre>

登录后复制
</div> <p>这段代码首先使用<code>DOMParser将HTML字符串解析成DOM树,然后使用querySelectorAll选择所有具有class="template_content"<div>元素。最后,它遍历每个元素,提取<code>data-template属性值和innerHTML内容,并将它们存储在一个数组中。 这种方法比正则表达式更可靠,因为它能够正确处理复杂的HTML结构,避免因HTML内容变化而导致的错误。

以上就是如何从HTML字符串中提取特定div元素的data-template属性值及其内容?的详细内容,更多请关注php中文网其它相关文章!

相关标签:

大家都在看:

php如何生成html文件_php生成html文件流程【教程】 html如何退格_模拟退格键删除HTML输入内容【删除】 怎么根据运行结果写html_据运行结果写html代码技巧【技巧】 html5如何保留换行_HTML5换行保留方法与文本格式处理技巧【详解】 如何清空html_清空HTML页面或元素的所有内容【所有】
HTML速学教程(入门课程)
HTML速学教程(入门课程)

HTML怎么学习?HTML怎么入门?HTML在哪学?HTML怎么学才快?不用担心,这里为大家提供了HTML速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
收藏 点赞
上一篇:CSS媒体查询样式冲突:如何避免991像素断点处样式互相干扰? 下一篇:Chrome浏览器下multipart/form-data请求体缺失是怎么回事?
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
最新问题
相关专题
更多>
热门推荐
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号