python去除html标签的方法:1、“pattern.sub('',html)”方法;2、“BeautifulSoup(html,'html.parser')”方法;3、“response.xpath('string(.)')”方法。

本文操作环境:windows7系统、python3.6.4版,DELL G3电脑。
python去除html标签的几种方法
import re
from bs4 import BeautifulSoup
from lxml import etree
html = '<p>你好</p>
<div class="aritcle_card">
<a class="aritcle_card_img" href="/ai/735">
<img src="https://img.php.cn/upload/ai_manual/001/246/273/68b6cdbf48df2598.png" alt="代码小浣熊">
</a>
<div class="aritcle_card_info">
<a href="/ai/735">代码小浣熊</a>
<p>代码小浣熊是基于商汤大语言模型的软件智能研发助手,覆盖软件需求分析、架构设计、代码编写、软件测试等环节</p>
<div class="">
<img src="/static/images/card_xiazai.png" alt="代码小浣熊">
<span>429</span>
</div>
</div>
<a href="/ai/735" class="aritcle_card_btn">
<span>查看详情</span>
<img src="/static/images/cardxiayige-3.png" alt="代码小浣熊">
</a>
</div>
<br/><font>哈哈</font><b>大家好</b>'
# 方法一
pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)
<br># 方法二
soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())
# 方法三
response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))
# 你好哈哈大家好
# 你好哈哈大家好
# 你好哈哈大家好【推荐:python视频教程】
立即学习“Python免费学习笔记(深入)”;
以上就是python怎么去除html标签的详细内容,更多请关注php中文网其它相关文章!
python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号