Pandas read_csv 日期时间解析深度指南

碧海醫心

发布时间：2025-09-28 10:03:42

313人浏览过

来源于php中文网

原创

Pandas read_csv 日期时间解析深度指南

本教程详细讲解如何使用 Pandas 的 read_csv 函数正确解析CSV文件中的日期和时间数据。重点介绍了 parse_dates 参数的灵活应用，包括解析单个日期时间列、合并多个日期/时间列，以及如何通过 dayfirst 参数解决日期格式歧义问题，确保数据被正确识别为 datetime64[ns] 类型，避免常见的 object 类型错误，从而提高数据处理的准确性和效率。

在使用 pandas 处理 csv 数据时，日期和时间列常常以字符串（object）类型被导入，这会限制后续的日期时间操作。为了充分利用 pandas 强大的时间序列功能，我们需要确保这些列被正确解析为 datetime64[ns] 类型。read_csv 函数提供了 parse_dates 参数来专门处理这一需求。

parse_dates 参数详解

parse_dates 参数是 read_csv 中用于指定哪些列应该被解析为日期时间类型，它接受多种形式的输入：

单个列名或列索引的列表：用于解析 CSV 中已有的日期时间列。
列名或列索引对的列表：用于将多个独立的列（如日期列和时间列）合并成一个单一的日期时间列。

以下我们将通过示例数据来演示 parse_csv 的不同用法。

示例数据准备

为了方便演示和重现，我们使用 io.StringIO 模块模拟一个 CSV 文件内容：

import pandas as pd
from io import StringIO

csv_text = """
Study ID,CG_Arrival_Date/Time,Arrival_Date,Arrival_Time
2,1/1/2011 0:03,1/1/2011,0:03:00
3,1/1/2011 0:53,1/1/2011,0:53:00
"""

1. 解析单个日期时间列

如果 CSV 文件中已经存在一个包含完整日期和时间信息的列，我们可以直接指定该列进行解析。parse_dates 参数可以接受列名或列的整数索引。

# 使用列索引解析 'CG_Arrival_Date/Time' (索引为1)
df_single_col_index = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[1])
print("--- 解析单个列 (通过索引) ---")
print(df_single_col_index.dtypes)
print(df_single_col_index.head())

# 使用列名解析 'CG_Arrival_Date/Time'
df_single_col_name = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=['CG_Arrival_Date/Time'])
print("\n--- 解析单个列 (通过列名) ---")
print(df_single_col_name.dtypes)
print(df_single_col_name.head())

输出示例:

--- 解析单个列 (通过索引) ---
CG_Arrival_Date/Time    datetime64[ns]
Arrival_Date                    object
Arrival_Time                    object
dtype: object
                    CG_Arrival_Date/Time Arrival_Date Arrival_Time
Study ID                                                        
2            2011-01-01 00:03:00   1/1/2011    0:03:00
3            2011-01-01 00:53:00   1/1/2011    0:53:00

--- 解析单个列 (通过列名) ---
CG_Arrival_Date/Time    datetime64[ns]
Arrival_Date                    object
Arrival_Time                    object
dtype: object
                    CG_Arrival_Date/Time Arrival_Date Arrival_Time
Study ID                                                        
2            2011-01-01 00:03:00   1/1/2011    0:03:00
3            2011-01-01 00:53:00   1/1/2011    0:53:00

从输出可以看出，CG_Arrival_Date/Time 列已被成功解析为 datetime64[ns] 类型。

2. 合并多个列为单一日期时间列

当日期和时间信息分布在不同的列中时（例如，一个 Arrival_Date 列和一个 Arrival_Time 列），parse_dates 允许我们将它们合并成一个 datetime64[ns] 类型的新列。这通过向 parse_dates 提供一个包含列名或列索引对的列表来实现。

Play.ht

根据文本生成多种逼真的语音

下载

# 合并 'Arrival_Date' (索引2) 和 'Arrival_Time' (索引3)
df_combined_cols_index = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[[2, 3]])
print("--- 合并日期和时间列 (通过索引) ---")
print(df_combined_cols_index.dtypes)
print(df_combined_cols_index.head())

# 合并 'Arrival_Date' 和 'Arrival_Time' (通过列名)
df_combined_cols_name = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[['Arrival_Date', 'Arrival_Time']])
print("\n--- 合并日期和时间列 (通过列名) ---")
print(df_combined_cols_name.dtypes)
print(df_combined_cols_name.head())

输出示例:

--- 合并日期和时间列 (通过索引) ---
CG_Arrival_Date/Time           object
Arrival_Date_Arrival_Time    datetime64[ns]
dtype: object
                  CG_Arrival_Date/Time Arrival_Date_Arrival_Time
Study ID                                                        
2            1/1/2011 0:03       2011-01-01 00:03:00
3            1/1/2011 0:53       2011-01-01 00:53:00

--- 合并日期和时间列 (通过列名) ---
CG_Arrival_Date/Time           object
Arrival_Date_Arrival_Time    datetime64[ns]
dtype: object
                  CG_Arrival_Date/Time Arrival_Date_Arrival_Time
Study ID                                                        
2            1/1/2011 0:03       2011-01-01 00:03:00
3            1/1/2011 0:53       2011-01-01 00:53:00

当合并列时，Pandas 会自动创建一个新的列，其名称由原始列名用下划线连接而成（例如 Arrival_Date_Arrival_Time）。这个新列的类型是 datetime64[ns]。

3. 处理日期格式歧义 (dayfirst 参数)

在某些情况下，日期格式可能存在歧义，例如 1/1/2011 既可以是 MM/DD/YYYY (1月1日) 也可以是 DD/MM/YYYY (1月1日)。Pandas 默认尝试解析为 MM/DD/YYYY。如果你的数据是 DD/MM/YYYY 格式，你需要使用 dayfirst=True 参数来明确指定。

# 假设日期格式为 DD/MM/YYYY，并解析 'CG_Arrival_Date/Time' 列
df_dayfirst = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[1], dayfirst=True)
print("--- 使用 dayfirst=True 解析 ---")
print(df_dayfirst.dtypes)
print(df_dayfirst.head())

在这个特定的示例数据中，1/1/2011 无论 dayfirst 设置为 True 还是 False，结果都是 2011-01-01，因为月份和日期都是1。然而，如果遇到像 1/15/2011 这样的日期，dayfirst=True 会将其解析为1月15日，而 dayfirst=False (默认) 则会尝试解析为15月1日（导致错误或 NaT）。因此，了解数据的实际日期格式并正确设置 dayfirst 至关重要。

注意事项与总结

列名与列索引：在 parse_dates 中使用列名比使用列索引更具可读性和健壮性，因为列的顺序可能会在文件更新时发生变化。
格式一致性：CSV 文件中所有待解析的日期时间数据应尽可能保持一致的格式。如果存在多种格式，Pandas 可能无法全部正确解析，此时可能需要更复杂的自定义解析函数或预处理。
错误处理：如果 read_csv 无法解析某个日期时间值，它可能会将其替换为 NaT (Not a Time) 或抛出错误，具体行为取决于 errors 参数（默认为 'coerce'，即替换为 NaT）。
性能考虑：对于非常大的文件，指定 parse_dates 会略微增加读取时间，但通常比先读取为字符串再手动转换效率更高。

通过灵活运用 read_csv 的 parse_dates 和 dayfirst 参数，我们可以有效地将 CSV 文件中的日期和时间数据导入为 Pandas datetime64[ns] 类型，为后续的时间序列分析和数据处理奠定坚实基础。

如何在Python中正确合并多个CSV文件并动态添加列

如何用Python高效提取CSV数据并自动导入Word表格

如何高效地从CSV提取数据并自动导入Word生成表格

如何在Python中高效提取CSV数据并自动导入Word文档生成表格

如何用Python自动化将CSV数据导入并嵌入Word文档表格

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

258

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

208

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1465

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

619

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

550

2024.03.22