扫码关注官方订阅号
现在我爬虫得到的数据格式为Unicode的html片段,现在想把它转换为html格式的内容,然后容易提取,应该如何做?比如获取的片段为以下:
游戏 界面设计 关注
游戏 界面设计
格式为unicode如何将它转为html格式,然后进行提取?
学习是最好的投资!
你可能弄混了一些概念……(。・`ω´・)
HTML 全称How To Make Love,哦……不是,是HyperText Markup Language(超级文本标记语言)
Unicode 是一种字符串编码,字符串还有GBK,GB2312等
两者不是同一种东西,不能互相转换。就好像我能说,能把python转换成unicode吗?显然不能这么说。你只能说是把python代码的默认编码转换成unicode。
如果你是需要python字符串的转换成unicode,在py2中提供了Unicode这个类,而py3中,字符串默认编码就是unicode,不需要转换。
但是你题目描述的是转换成HTML格式,那么现在你贴出来的这段,就是HTML了……ヾ(o◕∀◕)ノ
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
你可能弄混了一些概念……(。・`ω´・)
HTML 全称How To Make Love,哦……不是,是HyperText Markup Language(超级文本标记语言)
Unicode 是一种字符串编码,字符串还有GBK,GB2312等
两者不是同一种东西,不能互相转换。就好像我能说,能把python转换成unicode吗?显然不能这么说。你只能说是把python代码的默认编码转换成unicode。
如果你是需要python字符串的转换成unicode,在py2中提供了Unicode这个类,而py3中,字符串默认编码就是unicode,不需要转换。
但是你题目描述的是转换成HTML格式,那么现在你贴出来的这段,就是HTML了……ヾ(o◕∀◕)ノ