Python怎么读取CSV文件_Python CSV文件读取方法详解

穿越時空

发布时间：2025-09-13 22:08:01

449人浏览过

来源于php中文网

原创

Python读取CSV文件主要有两种方式：使用内置csv模块适合简单逐行处理，内存占用低；而pandas的read_csv()则将数据直接加载为DataFrame，便于数据分析。csv.reader按列表形式读取，适用于已知列顺序的场景；csv.DictReader以字典形式读取，通过列名访问更直观。pandas优势在于数据清洗、类型推断、缺失值处理及高性能操作，支持chunksize分块读取大型文件，usecols和dtype优化内存，同时可处理编码问题（如utf-8、gbk）和自定义分隔符，适应非标准格式。

python怎么读取csv文件_python csv文件读取方法详解

Python读取CSV文件主要有两种主流且高效的方式：一是利用Python内置的

csv

模块，它提供了基础且灵活的CSV文件处理能力，适合逐行或按字典格式读取；二是借助强大的第三方库

pandas

，特别是其

read_csv()

函数，它能将CSV数据直接加载为DataFrame，极大简化了数据清洗、分析和操作的流程，对于数据科学和大数据处理场景几乎是标配。选择哪种方法，往往取决于你的具体需求和对数据处理复杂度的预期。

解决方案

在Python中处理CSV文件，我们通常会根据需求选择不同的工具。如果只是简单地遍历数据，或者对内存占用有严格要求，内置的

csv

模块是个不错的选择。而如果需要进行复杂的数据分析、清洗或与数据库交互，

pandas

库无疑是更高效、功能更强大的方案。

使用Python内置的

csv

模块

csv

模块提供了两种主要的读取方式：

csv.reader

和

csv.DictReader

。

立即学习“Python免费学习笔记（深入）”；

csv.reader

：按行和字段读取 这种方式会将CSV文件的每一行视为一个列表，列表中的每个元素对应一个字段。这很直接，适合那些你已经知道列顺序，或者只是想快速迭代所有数据的场景。

import csv

file_path = 'data.csv' # 假设有一个名为data.csv的文件

try:
    with open(file_path, mode='r', encoding='utf-8') as file:
        reader = csv.reader(file)
        header = next(reader) # 通常第一行是标题
        print(f"文件头部: {header}")
        for row in reader:
            print(row)
            # 假设我们想处理每一行的数据，比如计算某个字段的和
            # if len(row) > 1 and row[1].isdigit(): # 简单检查，避免索引错误和非数字数据
            #     print(f"第二个字段的值: {row[1]}")
except FileNotFoundError:
    print(f"错误：文件 '{file_path}' 未找到。")
except Exception as e:
    print(f"读取文件时发生错误: {e}")

这里需要注意

encoding

参数，它在处理不同编码的CSV文件时至关重要，特别是Windows系统下常见的

gbk

或

cp936

。如果文件不存在，或者编码不对，程序会报错，所以加上

try-except

块是好习惯。

csv.DictReader

：按字典格式读取

DictReader

会把CSV文件的第一行（通常是标题行）作为字典的键，后续每一行数据则作为字典的值。这种方式非常方便，因为它允许你通过列名直接访问数据，而不用关心列的索引，大大提高了代码的可读性和健壮性。

import csv

file_path = 'data.csv'

try:
    with open(file_path, mode='r', encoding='utf-8') as file:
        reader = csv.DictReader(file)
        for row in reader:
            print(row)
            # 你可以直接通过列名访问数据，比如
            # if '姓名' in row:
            #     print(f"姓名: {row['姓名']}")
            # if '年龄' in row and row['年龄'].isdigit():
            #     print(f"年龄: {row['年龄']}")
except FileNotFoundError:
    print(f"错误：文件 '{file_path}' 未找到。")
except Exception as e:
    print(f"读取文件时发生错误: {e}")

在我看来，

DictReader

在很多情况下比

reader

更实用，特别是当CSV文件的列顺序可能变化，或者列名比索引更有意义时。

使用

pandas

库读取CSV文件

pandas

是Python数据科学领域的核心库，它提供了一个高性能、易于使用的数据结构DataFrame，非常适合处理表格数据。读取CSV文件到DataFrame是它的基本功能之一。

import pandas as pd

file_path = 'data.csv'

try:
    df = pd.read_csv(file_path, encoding='utf-8')
    print("成功读取CSV文件，前5行数据如下：")
    print(df.head())
    print("\n数据框信息：")
    df.info()
    # 还可以直接访问列
    # print(df['姓名'])
except FileNotFoundError:
    print(f"错误：文件 '{file_path}' 未找到。")
except pd.errors.EmptyDataError:
    print(f"错误：文件 '{file_path}' 是空的或不包含数据。")
except Exception as e:
    print(f"读取文件时发生错误: {e}")

pd.read_csv()

函数功能非常强大，参数众多，可以处理各种复杂的CSV文件格式，比如指定分隔符、跳过行、处理缺失值、指定数据类型等等。这使得它在处理真实世界中那些“不那么标准”的CSV文件时，显得游刃有余。

Python内置的

csv

模块有哪些常用方法，分别适用于什么场景？

Python内置的

csv

模块主要提供了

csv.reader

和

csv.DictReader

这两个核心类来读取CSV文件，它们各有侧重，适用于不同的场景。

csv.reader

：基础的行迭代器

工作原理：
```
csv.reader
```
对象是一个迭代器，每次迭代返回CSV文件中的一行数据，以列表（list）的形式呈现。列表中的每个元素对应CSV文件中的一个字段。
常用参数：
- ```
delimiter
```
  ：指定字段之间的分隔符，默认为逗号
```
,
```
  。如果你的CSV文件使用分号
```
;
```
  或制表符
```
\t
```
  分隔，就需要明确指定。
- ```
quotechar
```
  ：指定引用字符，默认为双引号
```
"
```
  。当字段内容包含分隔符时，通常会用引用字符包围。
- ```
skipinitialspace
```
  ：如果为
```
True
```
  ，在分隔符后会忽略空格。
适用场景：
- 快速遍历所有数据： 当你不需要通过列名访问数据，只想简单地逐行处理，比如统计行数、简单的数据清洗或转换。
- 内存敏感型应用： 由于它一次只读取一行数据，对于非常大的CSV文件，
```
csv.reader
```
  比一次性加载所有数据到内存（如
```
pandas
```
  ）更节省内存。
- 自定义解析逻辑： 当CSV文件的结构非常规，需要你手动解析每个字段时，
```
csv.reader
```
  提供了最原始的数据访问方式。
- 处理没有标题行的CSV： 如果CSV文件没有明确的标题行，
```
csv.reader
```
  就显得很自然，因为你本来就需要通过索引来访问数据。

示例（处理非标准分隔符）：

import csv

# 假设文件data_semicolon.csv内容是：
# Name;Age;City
# Alice;30;New York
# Bob;24;London

file_path = 'data_semicolon.csv'
try:
    with open(file_path, mode='r', encoding='utf-8') as file:
        reader = csv.reader(file, delimiter=';') # 指定分号作为分隔符
        header = next(reader)
        print(f"头部（分号分隔）: {header}")
        for row in reader:
            print(f"数据行: {row}")
except FileNotFoundError:
    print(f"文件 '{file_path}' 未找到。")
except Exception as e:
    print(f"读取文件时发生错误: {e}")

csv.DictReader

：字典形式的行迭代器

工作原理：
```
csv.DictReader
```
也返回一个迭代器，但每次迭代返回的是一个字典（dict）。这个字典的键（keys）默认取自CSV文件的第一行（通常是标题行），值（values）则是当前行对应字段的数据。
常用参数：
- ```
fieldnames
```
  ：如果你想手动指定字段名，而不是使用CSV文件的第一行作为标题，可以传入一个列表。
- 其他参数如
```
delimiter
```
  、
```
quotechar
```
  等与
```
csv.reader
```
  相同。
适用场景：
- 通过列名访问数据： 这是
```
DictReader
```
  最大的优势。当CSV文件的列顺序可能变化，或者列的含义比其索引更重要时，通过列名访问数据能让代码更清晰、更不容易出错。
- 数据清洗和转换： 当你需要根据特定列的值进行条件判断、计算或修改时，
```
DictReader
```
  的字典访问方式非常直观。
- 与数据库或API交互： 如果你的数据最终要导入数据库或通过API发送，而这些系统通常都使用字段名来标识数据，那么
```
DictReader
```
  能更好地匹配这种需求。
- 处理有明确标题行的CSV： 对于大多数结构化的CSV文件，第一行就是标题，
```
DictReader
```
  能自动识别并利用这些标题。

示例（指定

fieldnames

）：

import csv

# 假设文件data_no_header.csv内容是：
# Alice,30,New York
# Bob,24,London

file_path = 'data_no_header.csv'
# 如果文件没有头部，但我们知道列的含义
column_names = ['姓名', '年龄', '城市']
try:
    with open(file_path, mode='r', encoding='utf-8') as file:
        reader = csv.DictReader(file, fieldnames=column_names)
        # 如果有实际的头部行，但我们想跳过它并使用自定义的fieldnames
        # next(reader) # 如果文件有头部但我们不想用，就跳过它
        for row in reader:
            print(f"姓名: {row['姓名']}, 年龄: {row['年龄']}, 城市: {row['城市']}")
except FileNotFoundError:
    print(f"文件 '{file_path}' 未找到。")
except Exception as e:
    print(f"读取文件时发生错误: {e}")

总的来说，

csv

模块提供了对CSV文件进行精细控制的能力，尤其在资源受限或需要自定义解析逻辑的场景下表现出色。但在面对大量数据分析任务时，它往往需要更多的手动编码来完成数据类型转换、缺失值处理等，这时

pandas

的优势就凸显出来了。

Bertha.ai

一款专为WordPress打造的AI内容和图像创建工具

下载

使用

pandas

库读取CSV文件相比

csv

模块有哪些显著优势？如何处理大型CSV文件？

pandas

库在数据处理领域几乎是无处不在，尤其在读取CSV文件方面，它相比Python内置的

csv

模块，提供了压倒性的优势，特别是在处理大型文件和进行复杂数据分析时。

pandas

库读取CSV文件的显著优势：

数据结构化和可视化：
- DataFrame：
```
pandas
```
  将CSV数据直接加载到一个名为DataFrame的二维表格结构中。DataFrame类似于电子表格或SQL表，具有行和列标签，非常直观。这使得数据查看、切片、筛选和聚合操作变得异常简单。而
```
csv
```
  模块每次只处理一行，你需要自己构建数据结构。
- 数据概览：
```
df.head()
```
  ,
```
df.info()
```
  ,
```
df.describe()
```
  等函数能让你迅速了解数据的结构、类型、缺失值和统计摘要，这在数据探索阶段是极其宝贵的。
强大的数据清洗和预处理功能：
- 缺失值处理：
```
pd.read_csv()
```
  可以直接在读取时处理缺失值（
```
na_values
```
  参数），读取后DataFrame也提供了
```
dropna()
```
  ,
```
fillna()
```
  等方法，处理缺失值非常方便。
```
csv
```
  模块需要手动判断和处理。
- 数据类型推断与转换：
```
pandas
```
  能智能地推断列的数据类型（整数、浮点数、字符串、日期等），并提供强大的类型转换功能（
```
astype()
```
  ）。
```
csv
```
  模块读取的所有数据都是字符串，需要手动转换。
- 日期时间解析：
```
parse_dates
```
  参数能自动将指定列解析为日期时间对象，方便后续的时间序列分析。
```
csv
```
  模块需要手动使用
```
datetime
```
  模块进行解析。
- 重复值处理：
```
drop_duplicates()
```
  能轻松识别和删除重复行。
高性能：
- ```
pandas
```
  底层是基于NumPy和C语言实现的，对于大规模数据操作，其性能通常远超纯Python循环处理。读取大型CSV文件时，
```
pd.read_csv()
```
  通常比
```
csv
```
  模块快得多。
丰富的数据操作和分析API：
- 数据筛选与查询： 基于条件、列名或索引进行数据筛选非常灵活。
- 分组与聚合：
```
groupby()
```
  配合聚合函数（
```
sum()
```
  ,
```
mean()
```
  ,
```
count()
```
  等）可以轻松实现复杂的数据汇总。
- 合并与连接：
```
merge()
```
  ,
```
join()
```
  ,
```
concat()
```
  等函数可以方便地将多个DataFrame组合起来。
- 统计分析： 内置了大量的统计函数和方法。
易用性和代码简洁性：
- 许多在
```
csv
```
  模块中需要多行代码才能完成的操作，在
```
pandas
```
  中可能只需要一行。这大大提高了开发效率和代码的可读性。

如何处理大型CSV文件？

当CSV文件大到无法一次性完全加载到内存时，

pandas

也提供了一些非常有效的策略：

chunksize

参数：分块读取 这是处理大型CSV文件最常用的方法。

chunksize

参数让

read_csv()

返回一个迭代器，每次迭代返回一个指定大小的DataFrame块。这样，你就可以逐块处理数据，而无需将整个文件加载到内存。

import pandas as pd

file_path = 'large_data.csv' # 假设这是一个非常大的CSV文件
chunk_size = 100000 # 每次读取10万行

total_rows_processed = 0
# 假设我们想计算某个列的总和
total_value_sum = 0

try:
    for chunk in pd.read_csv(file_path, chunksize=chunk_size, encoding='utf-8'):
        total_rows_processed += len(chunk)
        # 在这里对每个chunk进行处理，例如：
        if '数值列' in chunk.columns:
            total_value_sum += chunk['数值列'].sum()
        print(f"已处理 {total_rows_processed} 行数据...")

    print(f"所有数据处理完毕。总行数: {total_rows_processed}, 数值列总和: {total_value_sum}")

except FileNotFoundError:
    print(f"错误：文件 '{file_path}' 未找到。")
except Exception as e:
    print(f"处理大型文件时发生错误: {e}")

这种方式的缺点是，如果你需要全局性的操作（比如排序整个文件），分块处理会比较复杂。

nrows

参数：读取指定行数 如果你只需要文件的前N行进行测试或预览，

nrows

参数非常有用。

import pandas as pd
df_preview = pd.read_csv('large_data.csv', nrows=1000, encoding='utf-8')
print(f"已读取前1000行数据，数据框形状: {df_preview.shape}")

usecols

参数：只读取需要的列 如果CSV文件有很多列，但你只需要其中的几列，使用

usecols

参数可以显著减少内存占用。

import pandas as pd
df_selected = pd.read_csv('large_data.csv', usecols=['ID', '姓名', '年龄'], encoding='utf-8')
print(f"只读取了指定列，数据框形状: {df_selected.shape}")

```
dtype
```
参数：指定数据类型
```
pandas
```
在读取时会尝试推断每列的最佳数据类型，但这有时会导致使用比实际需要更大的内存（例如，将整数列推断为浮点数）。通过
```
dtype
```
参数明确指定每列的数据类型，可以有效优化内存使用。
```
import pandas as pd
df_optimized = pd.read_csv('large_data.csv', dtype={'ID': 'int32', '年龄': 'int16', '姓名': 'string'}, encoding='utf-8')
df_optimized.info(memory_usage='deep') # 查看内存使用情况
```
尤其是对于整数和字符串列，使用更小的整数类型（如
```
int8
```
,
```
int16
```
,
```
int32
```
）或
```
'category'
```
类型（对于重复值较多的字符串）可以大幅节省内存。
```
skiprows
```
参数：跳过不需要的行 如果文件开头有元数据或无效行，可以使用
```
skiprows
```
跳过它们。

结合这些策略，
```
pandas
```
在处理从小型到超大型的CSV文件时，都展现出了无与伦比的灵活性和效率。

读取CSV文件时，常见的编码问题和分隔符不一致如何解决？

在实际工作中，CSV文件往往不是那么“标准”，经常会遇到编码错误和分隔符不一致的问题。这些问题如果不妥善处理，会导致数据乱码、解析失败，甚至程序崩溃。

1. 编码问题（

UnicodeDecodeError

）

这是最常见也最令人头疼的问题之一。当程序尝试以错误的编码方式解码文件时，就会抛出

UnicodeDecodeError

。

问题表现：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x... in position ...: invalid start byte

读取到的中文或其他非ASCII字符显示为乱码（如
```
���
```
或问号）。

解决方案：

明确指定编码： 最直接有效的方法就是在打开文件时，通过

encoding

参数明确指定正确的编码。

对于
csv
模块：

import csv
try:
    # 尝试 'utf-8'
    with open('data.csv', mode='r', encoding='utf-8') as f:
        reader = csv.reader(f)
        # ... 处理数据
except UnicodeDecodeError:
    print("尝试UTF-8失败，尝试GBK...")
    try:
        # 尝试 'gbk' 或 'cp936' (Windows中文环境常用)
        with open('data.csv', mode='r', encoding='gbk') as f:
            reader = csv.reader(f)
            # ... 处理数据
    except UnicodeDecodeError:
        print("尝试GBK也失败，尝试Latin-1...")
        # 尝试 'latin-1' (有时用于包含各种非ASCII字符的文件)
        with open('data.csv', mode='r', encoding='latin-1') as f:
            reader = csv.reader(f)
            # ... 处理数据
except FileNotFoundError:
    print("文件未找到。")

对于
pandas
：

import pandas as pd
try:
    df = pd.read_csv('data.csv', encoding='utf-8')
except UnicodeDecodeError:
    print("尝试UTF-8失败，尝试GBK...")
    try:
        df = pd.read_csv('data.csv', encoding='gbk')
    except UnicodeDecodeError:
        print("尝试GBK也失败，尝试Latin-1...")
        df = pd.read_csv('data.csv', encoding='latin-1')
except FileNotFoundError:
    print("文件未找到。")

猜测文件编码： 如果你不知道文件的确切编码，可以使用第三方库如

chardet

来猜测。这虽然不是100%准确，但在很多情况下能提供很好的线索。

# 首先安装：pip install chardet
import chardet

def detect_encoding(file_path):
    with open(file_path, 'rb') as f: # 以二进制模式读取
        raw_data = f.read(100000) # 读取文件的前100KB进行检测
    result = chardet.detect(raw_data)
    return result['encoding']

file_

Python持续集成进阶教程_GitHubActions与Jenkins实践

Python类属性与方法访问_作用范围说明【指导】

Python文本编码与解码_跨平台处理解析【指导】

Python自动化测试进阶教程_接口与UI测试整合实战

Python爬虫数据清洗流程_结构化处理方法解析【教程】