讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

如何使用Python处理CSV和Excel文件？

狼影

发布时间：2025-09-03 19:24:01

|

556人浏览过

|

来源于php中文网

原创

答案：Python处理CSV和Excel文件最直接高效的方式是使用pandas库，它提供DataFrame结构简化数据操作。1. 读取文件时，pd.read_csv()和pd.read_excel()可加载数据，配合try-except处理文件缺失或读取异常；支持指定sheet_name读取特定工作表。2. 数据操作包括查看info()和describe()、布尔索引筛选、修改列值、添加新列等。3. 写入文件用to_csv()和to_excel()，后者结合ExcelWriter可写入多工作表。处理大型CSV时，采用分块读取（chunksize）、预设dtype优化内存、使用csv模块逐行处理，或转为Parquet/数据库提升性能。复杂操作如合并（pd.merge）、多条件筛选、pivot_table透视分析及缺失值处理（fillna/dropna）均便捷高效。常见错误包括编码问题（可用chardet检测）、文件路径错误（os.path.exists检查）、文件被占用（关闭Excel）、数据类型推断错误（指定dtype或na_values）及Excel文件损坏，调试时应结合print、info、head逐步排查。

如何使用python处理csv和excel文件？

Python处理CSV和Excel文件，最直接且高效的方式莫过于利用其强大的第三方库，尤其是

pandas

。它提供了一套非常直观且功能丰富的工具集，能让你轻松地读取、写入、操作和分析这两种格式的数据。对于纯文本的CSV，Python内置的

csv

模块也能提供更底层的控制。

解决方案

处理CSV和Excel文件，我个人首选

pandas

库。它将数据结构化为DataFrame，极大地简化了数据操作。

1. 读取文件：

CSV文件：

立即学习“Python免费学习笔记（深入）”；

import pandas as pd

try:
    df_csv = pd.read_csv('your_file.csv')
    print("CSV文件读取成功！")
    print(df_csv.head())
except FileNotFoundError:
    print("错误：CSV文件未找到，请检查路径。")
except pd.errors.EmptyDataError:
    print("警告：CSV文件为空。")
except Exception as e:
    print(f"读取CSV文件时发生未知错误: {e}")

这里我喜欢用

try-except

包裹，因为文件路径错误或空文件是常有的事，提前处理能避免程序崩溃。

Excel文件：

import pandas as pd

try:
    # 读取第一个工作表
    df_excel = pd.read_excel('your_file.xlsx')
    print("Excel文件读取成功！")
    print(df_excel.head())

    # 如果需要指定工作表，可以使用sheet_name参数
    # df_excel_sheet2 = pd.read_excel('your_file.xlsx', sheet_name='Sheet2')
    # print("\n读取指定工作表成功！")
    # print(df_excel_sheet2.head())
except FileNotFoundError:
    print("错误：Excel文件未找到，请检查路径。")
except Exception as e:
    print(f"读取Excel文件时发生未知错误: {e}")

Excel文件可能包含多个工作表，

sheet_name

参数非常实用。

2. 数据操作（以DataFrame为例）：

一旦数据加载到DataFrame，你就可以进行各种操作了。

查看基本信息：

print(df_csv.info())
print(df_csv.describe()) # 统计描述

筛选数据：

# 筛选某一列值大于100的行
filtered_df = df_csv[df_csv['column_name'] > 100]
print("\n筛选后的数据：")
print(filtered_df.head())

修改数据：

# 将某一列的值全部转换为大写
df_csv['text_column'] = df_csv['text_column'].str.upper()
print("\n修改后的数据（text_column）：")
print(df_csv.head())

添加新列：

df_csv['new_column'] = df_csv['column_A'] + df_csv['column_B']
print("\n添加新列后的数据：")
print(df_csv.head())

3. 写入文件：

写入CSV文件：

df_csv.to_csv('output.csv', index=False) # index=False表示不写入行索引
print("\n数据已成功写入 output.csv")

写入Excel文件：

df_excel.to_excel('output.xlsx', index=False)
print("\n数据已成功写入 output.xlsx")

# 写入多个工作表
with pd.ExcelWriter('multi_sheet_output.xlsx') as writer:
    df_csv.to_excel(writer, sheet_name='CSV_Data', index=False)
    df_excel.to_excel(writer, sheet_name='Excel_Data', index=False)
print("数据已成功写入 multi_sheet_output.xlsx (包含多个工作表)")

ExcelWriter

是写入多工作表的关键，非常方便。

Python处理大型CSV文件有哪些优化策略？

处理大型CSV文件时，内存和性能往往是瓶颈。我个人在遇到GB级别的文件时，通常会从以下几个方面入手优化：

首先，分块读取（Chunking） 是最常见的策略。

pandas.read_csv

有一个

chunksize

参数，它不会一次性加载整个文件，而是返回一个迭代器，每次读取指定行数的数据块。这能显著减少内存占用，尤其是在你只需要对部分数据进行处理，或者需要聚合计算时。

import pandas as pd

chunk_size = 10000 # 每次读取1万行
total_rows_processed = 0
for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):
    # 对每个chunk进行处理，例如筛选、聚合等
    processed_chunk = chunk[chunk['value'] > 50]
    # 或者将处理结果存储起来，最后再合并
    # results.append(processed_chunk)
    total_rows_processed += len(chunk)
    print(f"已处理 {total_rows_processed} 行数据...")
# 最后可能需要将results合并成一个大的DataFrame
# final_df = pd.concat(results)

其次，指定数据类型（

dtype

）也是一个非常有效的优化手段。

pandas

在读取文件时，会尝试推断每一列的数据类型。如果你的文件很大，这个推断过程会消耗时间和内存。更重要的是，它可能会将实际上是整数的列推断为浮点数（因为有缺失值），或者将短字符串推断为

object

类型，这都会占用更多的内存。如果你对数据类型有了解，提前指定可以节省大量资源。

# 假设你知道'id'是int64，'name'是string，'value'是float32
optimized_df = pd.read_csv('large_file.csv', dtype={'id': 'int64', 'name': 'string', 'value': 'float32'})
print(optimized_df.info(memory_usage='deep')) # 比较内存占用

特别是对于整数列，如果数值范围不大，使用

int8

,

int16

,

int32

而非默认的

int64

能节省一半甚至更多的内存。字符串类型也可以尝试使用

category

类型，如果列中重复值很多的话。

再者，使用Python内置的

csv

模块进行低级别处理。对于某些极端情况，比如你只需要逐行读取数据，或者文件格式非常不规范，

pandas

可能显得过于“重”。Python的

csv

模块提供了

csv.reader

和

csv.writer

，它们以迭代器的方式工作，内存占用极低，非常适合处理超大型文件，但你需要手动解析每一行。

import csv

with open('very_large_file.csv', 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    header = next(reader) # 读取表头
    for row in reader:
        # 对每一行数据进行处理，例如写入数据库或进行简单计算
        # print(row) # row是一个列表
        pass

这种方式的缺点是，你需要自己处理数据类型转换、缺失值、错误处理等，不如

pandas

方便。但当内存真的吃紧时，它是最后的堡垒。

最后，如果你的数据量真的非常巨大，或者需要频繁地查询和分析，可能需要考虑将数据导入到数据库中，例如SQLite、PostgreSQL，或者使用像Parquet这样的列式存储格式，它们在读取和查询大型数据集时效率更高。

pandas

可以直接将DataFrame写入SQL数据库或Parquet文件。

如何在Python中对Excel数据进行复杂操作，如合并、筛选和透视？

pandas

在处理Excel数据方面，其DataFrame对象提供了极其强大的功能，让复杂的数据操作变得轻而易举。我通常会把Excel的各种“花活”都搬到

pandas

里来做，效率和可复用性都高得多。

1. 数据合并（Merging/Joining）：

这就像SQL里的JOIN操作。当你从不同的Excel工作表或文件读取了相关联的数据时，通常需要将它们合并起来。

易森网络企业版

易森网络企业版

如果您是新用户，请直接将本程序的所有文件上传在任一文件夹下，Rewrite 目录下放置了伪静态规则和筛选器，可将规则添加进IIS，即可正常使用，不用进行任何设置；(可修改图片等)默认的管理员用户名、密码和验证码都是：yeesen系统默认关闭，请上传后登陆后台点击“核心管理”里操作如下:进入“配置管理”中的&ld

下载

import pandas as pd

# 假设有两个DataFrame，df1包含订单信息，df2包含客户信息
df_orders = pd.DataFrame({
    'OrderID': [1, 2, 3, 4],
    'CustomerID': [101, 102, 101, 103],
    'Amount': [100, 150, 200, 50]
})

df_customers = pd.DataFrame({
    'CustomerID': [101, 102, 103],
    'CustomerName': ['Alice', 'Bob', 'Charlie'],
    'City': ['NY', 'LA', 'SF']
})

# 根据CustomerID进行内连接（inner join）
merged_df = pd.merge(df_orders, df_customers, on='CustomerID', how='inner')
print("合并后的数据：")
print(merged_df)

# 如果连接键名不同，可以使用left_on和right_on
# pd.merge(df1, df2, left_on='ID_in_df1', right_on='ID_in_df2', how='left')

how

参数可以控制连接类型，如

'left'

,

'right'

,

'outer'

等，这和SQL的逻辑是一致的。

2. 数据筛选（Filtering）：

筛选是日常操作的重中之重。

pandas

的布尔索引非常灵活。

# 筛选金额大于120且客户在'NY'的订单
filtered_complex = merged_df[(merged_df['Amount'] > 120) & (merged_df['City'] == 'NY')]
print("\n复杂筛选后的数据：")
print(filtered_complex)

# 筛选CustomerName在特定列表中的订单
names_to_find = ['Alice', 'Charlie']
filtered_by_list = merged_df[merged_df['CustomerName'].isin(names_to_find)]
print("\n根据列表筛选后的数据：")
print(filtered_by_list)

注意，多个条件筛选时要用括号将每个条件括起来，并使用

（与）或

（或）连接。

3. 数据透视（Pivoting）：

这相当于Excel的“数据透视表”功能，用于对数据进行聚合和重塑，以从不同维度查看汇总信息。

# 假设我们想看每个城市和客户的订单总金额
pivot_table = pd.pivot_table(merged_df,
                             values='Amount',
                             index=['City', 'CustomerName'],
                             aggfunc='sum')
print("\n数据透视表（总金额）：")
print(pivot_table)

# 也可以使用groupby进行类似操作
# grouped_data = merged_df.groupby(['City', 'CustomerName'])['Amount'].sum()
# print("\nGroupBy结果：")
# print(grouped_data)

pivot_table

非常强大，

values

指定要聚合的列，

index

指定行索引，

columns

（可选）指定列索引，

aggfunc

指定聚合函数（如

sum

,

mean

,

count

等）。

groupby

也能实现类似功能，但在需要更复杂的多维度透视时，

pivot_table

更直观。

4. 缺失值处理：

Excel数据常常不完整，

pandas

提供了多种处理缺失值（NaN）的方法。

# 假设df_orders中Amount列有缺失值
df_orders_with_nan = df_orders.copy()
df_orders_with_nan.loc[0, 'Amount'] = None # 模拟缺失值

print("\n带有缺失值的原始数据：")
print(df_orders_with_nan)

# 填充缺失值（例如用0填充）
df_filled = df_orders_with_nan.fillna(0)
print("\n填充缺失值后的数据：")
print(df_filled)

# 删除包含缺失值的行
df_dropped = df_orders_with_nan.dropna()
print("\n删除缺失值行后的数据：")
print(df_dropped)

fillna()

可以填充任意值，

dropna()

可以删除包含缺失值的行或列。

这些操作只是冰山一角，

pandas

的API非常丰富，熟练掌握后，处理Excel数据的效率会有一个质的飞跃。

Python处理CSV/Excel时常见的错误与调试技巧有哪些？

在用Python处理CSV和Excel文件时，我遇到过不少让人头疼的问题，总结下来，主要集中在文件格式、编码、数据类型和文件锁定上。理解这些常见错误并掌握一些调试技巧，能让你少走很多弯路。

1. 编码错误（

UnicodeDecodeError

）：

这是我个人遇到最多，也最让人抓狂的错误之一。尤其是在处理来自不同系统或软件导出的CSV文件时，编码不一致是家常便饭。

错误现象：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xxx in position y: invalid start byte

原因：
```
pandas.read_csv
```
默认使用
```
utf-8
```
编码。如果你的CSV文件实际上是
```
gbk
```
、
```
latin-1
```
或其他编码，就会报错。

调试技巧：

尝试指定编码： 最直接的方法是尝试不同的编码。

encoding='gbk'

、

encoding='latin-1'

、

encoding='iso-8859-1'

是我最常尝试的几个。

try:
    df = pd.read_csv('data.csv', encoding='utf-8')
except UnicodeDecodeError:
    print("UTF-8解码失败，尝试GBK...")
    try:
        df = pd.read_csv('data.csv', encoding='gbk')
    except UnicodeDecodeError:
        print("GBK解码失败，尝试Latin-1...")
        df = pd.read_csv('data.csv', encoding='latin-1')

使用

chardet

库检测编码： 如果实在不知道是什么编码，可以使用

chardet

库来猜测。

import chardet

with open('data.csv', 'rb') as f:
    raw_data = f.read(10000) # 读取文件开头一部分进行检测
    result = chardet.detect(raw_data)
    print(f"检测到的编码是: {result['encoding']}")
# 然后用检测到的编码去读取
# df = pd.read_csv('data.csv', encoding=result['encoding'])

2. 文件未找到错误（

FileNotFoundError

）：

这个错误很直接，但有时候也容易犯。

错误现象：

FileNotFoundError: [Errno 2] No such file or directory: 'your_file.csv'

原因： 文件路径不正确，或者文件根本不存在。

调试技巧：

检查路径： 确保文件路径是绝对路径，或者相对于你的脚本的正确相对路径。

使用
os.path.exists()
：在读取文件前先检查文件是否存在。

import os
file_path = 'non_existent_file.csv'
if not os.path.exists(file_path):
    print(f"错误：文件 '{file_path}' 不存在。请检查路径。")
else:
    df = pd.read_csv(file_path)

3. 文件被占用错误（

PermissionError

或
IOError
）：

当你尝试写入一个正在被其他程序（比如Excel本身）打开的文件时，就会遇到这个问题。

错误现象：

PermissionError: [Errno 13] Permission denied: 'output.xlsx'

或

IOError: [Errno 13] Permission denied: 'output.csv'

原因： 目标文件被其他程序锁定，Python无法对其进行写入操作。
调试技巧：
- 关闭文件： 确保你尝试写入的文件在任何其他程序中都是关闭的。这是最常见的原因。
- 更改文件名： 如果你只是想保存结果，可以暂时将输出文件名改一下，避免冲突。
- 等待或重试机制： 在自动化脚本中，有时可以实现一个简单的重试机制，等待几秒钟再尝试写入。

4. 数据类型推断错误：

pandas

在读取CSV时会尝试推断列的数据类型，但这并不总是准确的，尤其是在数据不规范或包含混合类型时。

错误现象： 例如，一列数字中混入了一个文本值，
```
pandas
```
可能会将整列推断为
```
object
```
（字符串），导致后续数值计算失败。或者日期列被读成字符串。
原因： 数据不干净，或者
```
pandas
```
的推断机制不够“智能”。

调试技巧：

df.info()
和
df.head()
：经常使用这两个方法来检查DataFrame的列名、数据类型和前几行数据，快速发现问题。

指定
dtype
：如果你知道某些列的正确数据类型，直接在

read_csv

或

read_excel

时通过

dtype

参数指定。

df = pd.read_csv('data.csv', dtype={'id': int, 'value': float, 'date_col': str})
# 对于日期，可以先读成字符串，再用pd.to_datetime()转换
df['date_col'] = pd.to_datetime(df['date_col'], errors='coerce') # errors='coerce'会将无法转换的日期设为NaT

na_values
参数：如果你的缺失值不是标准的空字符串，而是像
```
'N/A'
```
、
```
'-'
```
这样的字符串，
```
pandas
```
可能不会识别。使用
```
na_values
```
参数可以告诉
```
pandas
```
哪些值应该被视为缺失值。
```
df = pd.read_csv('data.csv', na_values=['N/A', '-'])
```

5. Excel特定问题：

openpyxl.utils.exceptions.InvalidFileException
：尝试用
```
read_excel
```
读取一个损坏的Excel文件，或者一个实际上是CSV但后缀名是
```
.xlsx
```
的文件。
调试技巧： 确保文件真的是一个有效的Excel文件。有时需要手动打开文件检查一下。

总而言之，处理文件数据，耐心和细致是关键。当遇到问题时，不要急于修改代码，先用

print()

语句、

df.info()

、

df.head()

等工具查看数据状态，一步步缩小问题范围，往往能事半功倍。

相关文章

Python文本编码与解码_跨平台处理解析【指导】

Python自动化测试进阶教程_接口与UI测试整合实战

Python爬虫数据清洗流程_结构化处理方法解析【教程】

Python并发文件写入_锁机制说明【指导】

Python性能优化系统学习路线第268讲_核心原理与实战案例详解【教程】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python中的多进程与多线程如何选择？下一篇：深入理解Gensim Word2Vec：相似度、参数与优化策略

作者最新文章

什么是javascript的Web Workers_为什么Web Workers能实现多线程

2025-12-30 05:13

悟空浏览器主页被篡改怎么恢复_悟空浏览器默认搜索引擎变了

2025-12-30 07:13

漫蛙漫画：独家签约作品，别处看不到的精彩

2025-12-30 09:39

悟空浏览器无痕浏览记录会被保存吗_悟空浏览器隐私模式真的不留痕吗

2025-12-30 09:55

中国电信个人网上营业厅入口_中国电信官网个人中心登录页面

2025-12-30 10:06

现在用什么软件做ppt

2025-12-30 10:59

javascript中原型链是什么_如何利用它实现继承

2025-12-30 11:31

JavaScript如何操作日期时间_JavaScript中Date对象有哪些方法

2025-12-30 12:18

2026年过年假期日历_2026年春节放假指南

2025-12-30 12:22

拼豆能做什么_拼豆作品用途

2025-12-30 12:33

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

python开发工具

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

715

2023.06.15

python打包成可执行文件

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

739

2023.07.25

format在python中的用法

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

574

2023.08.04

scratch和python区别

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

697

2023.08.11

桌面文件位置介绍

桌面文件位置介绍

本专题整合了桌面文件相关教程，阅读专题下面的文章了解更多内容。

0

2025.12.30

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

易森网络企业版

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

最新Python教程从入门到精通

最新Python教程从入门到精通

共4课时 | 0.6万人学习

Django 教程

Django 教程

共28课时 | 2.6万人学习

SciPy 教程

SciPy 教程

共10课时 | 0.9万人学习

最新文章

更多

Python文件编码异常处理_跨平台解析【教程】

Python对象比较规则_eq方法说明【指导】

Python全栈项目开发进阶教程_FrontendBackend完整项目

PythonMatplotlib动画制作教程_动态可视化实例讲解

Python持续集成进阶教程_GitHubActions与Jenkins实践

Python类属性与方法访问_作用范围说明【指导】

Python文本编码与解码_跨平台处理解析【指导】

Python自动化测试进阶教程_接口与UI测试整合实战

Python爬虫数据清洗流程_结构化处理方法解析【教程】

Python并发文件写入_锁机制说明【指导】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部