Scrapy中如何用XPath完整提取div标签下的所有HTML内容？-Python教程-PHP中文网

Scrapy中如何用XPath完整提取div标签下的所有HTML内容？

霞舞

发布： 2025-03-01 23:02:10

原创

709人浏览过

scrapy中如何用xpath完整提取div标签下的所有html内容？

使用Scrapy和XPath提取HTML片段

本文介绍如何在Scrapy框架中，利用XPath表达式完整提取指定div标签及其所有子元素的HTML内容，包括标签本身。问题在于，需要提取特定div标签下的所有内容，但string(.)方法只能获取纯文本，而直接选择父元素又会包含完整的起始和结束标签。

例如，以下HTML片段：

<div class="contson">
    这是文本
    <p>aaaa</p><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/cb6835dc7db1" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">前端免费学习笔记（深入）</a>”；</p>
     这是文本2
     <br></br>
      这是文本3
</div>

登录后复制

目标是提取包含所有HTML标签的内容，预期结果：

慧中标AI标书

慧中标AI标书是一款AI智能辅助写标书工具。

120

查看详情

<code>'这是文本<p>aaaa</p><p><span>立即学习</span>“<a href="https://pan.quark.cn/s/cb6835dc7db1" style="text-decoration: underline !important; color: blue; font-weight: bolder;" rel="nofollow" target="_blank">前端免费学习笔记（深入）</a>”；</p>这是文本2<br></br>这是文本3'</code>

登录后复制

string(.)方法不适用，因为它只返回文本内容；直接使用XPath选择器//div[@class="contson"]也不理想，因为它返回整个div标签。

解决方案：使用node()函数。 node()函数可以获取指定元素下的所有子节点，包括文本节点和元素节点。因此，可以使用以下XPath表达式：

//div[@class="contson"]/node()

登录后复制

此表达式选择class属性为"contson"的div元素下的所有子节点。 extract()方法将结果提取为一个列表。由于extract()返回列表，需要使用"".join(xx)将列表元素连接成字符串，其中xx代表//div[@class="contson"]/node().extract()的结果。这样即可得到包含所有HTML标签的目标字符串。

以上就是Scrapy中如何用XPath完整提取div标签下的所有HTML内容？的详细内容，更多请关注php中文网其它相关文章！