python - pythoh3 下 '<abc>' 遇到这样的html转义符如何自动转义呢?
typecho
typecho 2017-06-12 09:27:01
[Python讨论组]

初学python,在使用scray 爬虫时,遇到html的特殊字符,于是百度搜看了下文档:

import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免网页转义留了个空格
s = html_parser.unescape(s)

运行时提示:
import markupbase
ImportError: No module named 'markupbase'


借助翻译软件,看HTMLParser官方文档找了第二种方法

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_data(self, data):
    print(data)
    return data

parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免网页转义留了个空格
ss=parser.feed(s)

第二种方法测试成功,遇到的问题是,return data 这一句,返回数据是无效的?


请问,有没有就几句代码解决转义的,如果没有第二种方法里如何才有返回值?

typecho
typecho

Following the voice in heart.

全部回复(1)
某草草
from html.parser import HTMLParser
html_parser = HTMLParser()
s = '<abc> '
txt = html_parser.unescape(s)
print(txt)
# 结果:<abc>
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号