讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 后端开发 > Python教程 > 正文

简单解决Python文件中文编码问题

php中文网

发布： 2016-06-10 15:07:10

原创

1581人浏览过

读写中文

需要读取utf-8编码的中文文件，先利用sublime text软件将它改成无DOM的编码，然后用以下代码：

with codecs.open(note_path, 'r+','utf-8') as f:
line=f.readline()
print line

登录后复制

这样就可以正确地读出文件里面的中文字符了。

同样的，如果要在创建的文件中写入中文，最好也和上面差不多：

with codecs.open(st,'a+','utf-8') as book_note:
book_note.write(st)

登录后复制

创建中文文件

然后以读出的字符为文件名，创建文件。

立即学习“Python免费学习笔记（深入）”；

如果直接用上面读出来的字符串创建文件，则会出现：

st=digest_path+"\"+onenote[0]+".txt"
print st
with open(st,'a+') as book_note:

登录后复制

经过调试，应该是最后一个换行符的问题，在生成名字的时候，将字符trip一下，就能够得到文件：

st=digest_path+"\"+onenote[0].strip()+".txt"

登录后复制

中文编码问题是用中文的程序员经常头大的问题，在python下也是如此，那么应该怎么理解和解决python的编码问题呢？

我们要知道python内部使用的是unicode编码，而外部却要面对千奇百怪的各种编码，比如作为中国程序经常要面对的gbk，gb2312，utf8等，那这些编码是怎么转换成内部的unicode呢？

首先我们先看一下源代码文件中使用字符串的情况。源代码文件作为文本文件就必然是以某种编码形式存储代码的，python默认会认为源代码文件是asci编码，比如说代码中有一个变量赋值：

s1='a' 
print s1

登录后复制

python认为这个'a'就是一个asci编码的字符。在仅仅使用英文字符的情况下一切正常，但是如果用了中文，比如：

s1='哈' 
print s1

登录后复制

这个代码文件被执行时就会出错，就是编码出了问题。python默认将代码文件内容当作asci编码处理，但asci编码中不存在中文，因此抛出异常。

解决问题之道就是要让python知道文件中使用的是什么编码形式，对于中文，可以用的常见编码有utf-8，gbk和gb2312等。只需在代码文件的最前端添加如下：

# -*- coding: utf-8 -*-

登录后复制

这就是告知python我这个文件里的文本是用utf-8编码的，这样，python就会依照utf-8的编码形式解读其中的字符，然后转换成unicode编码内部处理使用。

我秀秀淘宝客api源码

我秀秀淘宝客api源码

程序介绍：程序采用.net 2.0进行开发，全自动应用淘客api，自动采集信息，无需，手工更新，源码完全开放。（程序改进无需填入阿里妈妈淘客API 您只要修改app_code文件下的config.cs文件中的id为你的淘客id即可）针对淘客3/300毫秒的查询限制，系统采用相应的解决方案，可以解决大部分因此限制带来的问题；程序采用全局异常，避免偶尔没考虑到的异常带来的问题；程序源码全部开放，请使

我秀秀淘宝客api源码

0

我秀秀淘宝客api源码

不过，如果你在Windows控制台下运行此代码的话，虽然程序是执行了，但屏幕上打印出的却不是哈字。这是由于python编码与控制台编码的不一致造成的。Windows下控制台中的编码使用的

是gbk，而在代码中使用的utf-8，python按照utf-8编码打印到gbk编码的控制台下自然就会不一致而不能打印出正确的汉字。

解决办法一个是将源代码的编码也改成gbk，也就是代码第一行改成：

# -*- coding: gbk -*-

登录后复制

另一种方法是保持源码文件的utf-8不变，而是在'哈'前面加个u字，也就是:

s1=u'哈' 
print s1

登录后复制

这样就可以正确打印出'哈'字了。

这里的这个u表示将后面跟的字符串以unicode格式存储。python会根据代码第一行标称的utf-8编码识别代码中的汉字'哈'，然后转换成unicode对象。如果我们用type查看一下'哈'的数据类型type(‘哈')，会得到，而type(u'哈')，则会得到，也就是在字符前面加u就表明这是一个unicode对象，这个字会以unicode格式存在于内存中，而如果不加u，表明这仅仅是一个使用某种编码的字符串，编码格式取决于python对源码文件编码的识别，这里就是utf-8。

Python在向控制台输出unicode对象的时候会自动根据输出环境的编码进行转换，但如果输出的不是unicode对象而是普通字符串，则会直接按照字符串的编码输出字符串，从而出现上面的现象。

使用unicode对象的话，除了这样使用u标记，还可以使用unicode类以及字符串的encode和decode方法。

unicode类的构造函数接受一个字符串参数和一个编码参数，将字符串封装为一个unicode，比如在这里，由于我们用的是utf-8编码，所以unicode中的编码参数使用'utf-8′将字符封装为

unicode对象，然后正确输出到控制台：

s1=unicode(‘哈', ‘utf-8′) 
print s1

登录后复制

另外，用decode函数也可以将一个普通字符串转换为unicode对象。很多人都搞不明白python字符串的decode和encode函数都是什么意思。这里简要说明一下。

decode是将普通字符串按照参数中的编码格式进行解析，然后生成对应的unicode对象，比如在这里我们代码用的是utf-8，那么把一个字符串转换为unicode就是如下形式：

s2='哈'.decode(‘utf-8′)

登录后复制

这时，s2就是一个存储了'哈'字的unicode对象，其实就和unicode(‘哈', ‘utf-8′)以及u'哈'是相同的。

那么encode正好就是相反的功能，是将一个unicode对象转换为参数中编码格式的普通字符，比如下面代码：

s3=unicode(‘哈', ‘utf-8′).encode(‘utf-8′)

登录后复制

s3现在又变回了utf-8的'哈'。

相关标签：

python

大家都在看：

Python可变参数如何使用_*args与**kwargs讲解【指导】 Python使用贝叶斯分类器处理非结构化文本的流程解析【指导】 Python时间序列数据处理_索引与重采样方法【教程】 Python数据报告自动生成_pdf与excel输出方法【教程】 Python快速掌握自动化脚本中生成报告技巧【教程】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：Python中time模块与datetime模块在使用中的不同之处下一篇：Python实现将xml导入至excel

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

最新问题

Python如何创立一个2维列表 Python中二维列表本质是列表的列表，推荐用列表推导式初始化（如[[0forinrange(4)]forinrange(3)]），避免[[0]4]3导致的浅拷贝问题；也可用嵌套循环或直接组合已有行数据。

2025-12-23 23:10:02

481

PythonExcel文件操作_openpyxl与pandas结合实例【教程】最实用的组合是openpyxl负责样式、公式、合并单元格等排版，pandas专注数据清洗与分析；读取需data_only=True获取公式结果，写入须单元格级赋值以保留格式，新增sheet用openpyxl创建并逐行写入。

2025-12-23 23:09:19

864

python none代表什么 None是Python中表示“无值”的唯一空对象，属NoneType类型且不可变；应使用isNone判断，不可调用方法或迭代。

2025-12-23 23:09:08

463

Python多行匹配正则技巧_flags参数使用方法【指导】 Python正则默认不匹配换行符，需用re.DOTALL使.跨行匹配，re.MULTILINE使^$匹配每行首尾，二者作用不同不可混用，组合可用re.DOTALL|re.MULTILINE或(?ms)。

2025-12-23 23:08:02

499

Python如何实现跨平台自动化桌面任务处理系统【教学】 Python跨平台桌面自动化系统需用pyautogui、keyboard、pynput统一操作，结合platform/os适配路径与启动方式，用schedule或APScheduler定时，按系统分别打包并配置参数。

2025-12-23 23:07:35

682

Python可变参数如何使用_*args与**kwargs讲解【指导】 args接收任意位置参数并打包为tuple，kwargs接收任意关键字参数并打包为dict；二者顺序固定为必选参数→args→kwargs，且支持解包调用。

2025-12-23 23:07:02

121

Python深度学习构建轻量级模型的剪枝量化策略解析【教学】轻量级模型需“有依据地精简”+“不伤精度地压缩”，剪枝与量化协同设计是关键：先通道剪枝再量化为推荐顺序，校准与微调保障精度，结构化剪枝和QAT优于单独使用。

2025-12-23 23:07:02

840

Python使用贝叶斯分类器处理非结构化文本的流程解析【指导】贝叶斯分类器处理非结构化文本的核心是将文本转化为数字表达并使概率反映语义倾向，关键在清洗与表示、控制先验与似然、合理解读后验概率三步。

2025-12-23 23:06:08

306

Python时间序列数据处理_索引与重采样方法【教程】时间序列处理核心是索引为DatetimeIndex且有序，重采样通过resample按rule聚合；需用pd.to_datetime和set_index设索引、sort_index排序；注意closed方向、时区及offset对齐。

2025-12-23 23:05:15

810

Python数据报告自动生成_pdf与excel输出方法【教程】 Python自动生成数据报告需三步联动：用pandas+openpyxl生成带样式的Excel（支持合并单元格、图表、自动列宽），用Jinja2+WeasyPrint/pdfkit将HTML模板转PDF（注意中文字体与编码），最后封装双格式导出函数并统一命名、校验文件。

2025-12-23 23:04:02

617

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新Python教程从入门到精通

5595次学习
收藏
Django 教程

23568次学习
收藏
SciPy 教程

8770次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部