Python爬取微博评论乱码：Unicode方向控制符如何解决？-Python教程-PHP中文网

Python爬取微博评论乱码：Unicode方向控制符如何解决？

花韻仙語

发布： 2025-03-01 15:00:02

原创

1038人浏览过

python爬取微博评论乱码：unicode方向控制符如何解决？

Python爬取微博评论乱码：Unicode方向控制符引发的难题及解决方案

在使用Python进行微博评论数据抓取时，常常会遇到文本乱码问题。本文重点讨论一种常见情况：爬取的评论文本中包含Unicode方向控制符（如\u200e、\u202e、\u202c），导致文本显示错乱，甚至顺序颠倒。

例如，某用户使用requests库爬取微博关于特定话题的评论，结果文本中出现了这些特殊字符。奇怪的是，直接打印字符串时显示正常，存储到Pandas DataFrame中也能正常显示，但一旦通过索引访问或遍历字符串，这些字符就会出现，并导致字符串顺序混乱。尽管网页编码已确认是UTF-8，代码中也明确指定了response.encoding='utf-8'。

问题根源在于这些Unicode字符：\u202e（从右到左显示）和\u202c（取消从右到左显示）。微博服务器在某些情况下会插入这些控制符，导致爬取文本显示异常。

立即学习“Python免费学习笔记（深入）”；

Seed-TTS

Seed-TTS 是一个高质量多功能的文本到语音生成模型

909

查看详情

解决方案：利用正则表达式清除并反转受影响文本

解决方法是使用正则表达式去除这些控制符，并对受影响的文本片段进行反转。以下代码片段演示了如何实现：

import re

reversedRE = re.compile(r'\u202E(.*?)(?:\u202C|$)', re.DOTALL)

s = '\u202Ecba\u202Cdef\u202Eihg\u202C'
print(s)  # 原始字符串，显示乱序
s = reversedRE.sub(lambda m: m.group(1)[::-1], s)
print(s)  # 处理后的字符串，显示正常：abcdefghi

登录后复制

代码解释：

reversedRE 正则表达式匹配\u202e和\u202c之间的文本。re.DOTALL确保.匹配所有字符，包括换行符。(?:\u202c|$)使用非捕获组匹配\u202c或字符串结尾，处理末尾没有\u202c的情况。
reversedRE.sub(lambda m: m.group(1)[::-1], s) 将匹配到的文本片段（m.group(1)）反转([::-1])，替换掉原字符串。