python怎么去除html标签-Python教程-PHP中文网

python怎么去除html标签

藏色散人

发布： 2021-04-28 11:00:54

原创

7075人浏览过

python去除html标签的方法：1、“pattern.sub('',html)”方法；2、“BeautifulSoup(html,'html.parser')”方法；3、“response.xpath('string(.)')”方法。

python怎么去除html标签

本文操作环境：windows7系统、python3.6.4版，DELL G3电脑。

python去除html标签的几种方法

import re
from bs4 import BeautifulSoup
from lxml import etree
 
html = '<p>你好</p>
                    <div class="aritcle_card">
                        <a class="aritcle_card_img" href="/ai/735">
                            <img src="https://img.php.cn/upload/ai_manual/001/246/273/68b6cdbf48df2598.png" alt="代码小浣熊">
                        </a>
                        <div class="aritcle_card_info">
                            <a href="/ai/735">代码小浣熊</a>
                            <p>代码小浣熊是基于商汤大语言模型的软件智能研发助手，覆盖软件需求分析、架构设计、代码编写、软件测试等环节</p>
                            <div class="">
                                <img src="/static/images/card_xiazai.png" alt="代码小浣熊">
                                <span>429</span>
                            </div>
                        </div>
                        <a href="/ai/735" class="aritcle_card_btn">
                            <span>查看详情</span>
                            <img src="/static/images/cardxiayige-3.png" alt="代码小浣熊">
                        </a>
                    </div>
                <br/><font>哈哈</font><b>大家好</b>'
 
# 方法一
pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)
 <br># 方法二
soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())
 
# 方法三
response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))
 
 
# 你好哈哈大家好
# 你好哈哈大家好
# 你好哈哈大家好

登录后复制

【推荐：python视频教程】

立即学习“Python免费学习笔记（深入）”；

以上就是python怎么去除html标签的详细内容，更多请关注php中文网其它相关文章！