Pandas read_csv 日期时间解析深度指南

碧海醫心
发布: 2025-09-28 10:03:42
原创
251人浏览过

Pandas read_csv 日期时间解析深度指南

本教程详细讲解如何使用 Pandas 的 read_csv 函数正确解析CSV文件中的日期和时间数据。重点介绍了 parse_dates 参数的灵活应用,包括解析单个日期时间列、合并多个日期/时间列,以及如何通过 dayfirst 参数解决日期格式歧义问题,确保数据被正确识别为 datetime64[ns] 类型,避免常见的 object 类型错误,从而提高数据处理的准确性和效率。

在使用 pandas 处理 csv 数据时,日期和时间列常常以字符串(object)类型被导入,这会限制后续的日期时间操作。为了充分利用 pandas 强大的时间序列功能,我们需要确保这些列被正确解析为 datetime64[ns] 类型。read_csv 函数提供了 parse_dates 参数来专门处理这一需求。

parse_dates 参数详解

parse_dates 参数是 read_csv 中用于指定哪些列应该被解析为日期时间类型,它接受多种形式的输入:

  1. 单个列名或列索引的列表:用于解析 CSV 中已有的日期时间列。
  2. 列名或列索引对的列表:用于将多个独立的列(如日期列和时间列)合并成一个单一的日期时间列。

以下我们将通过示例数据来演示 parse_csv 的不同用法。

示例数据准备

为了方便演示和重现,我们使用 io.StringIO 模块模拟一个 CSV 文件内容:

import pandas as pd
from io import StringIO

csv_text = """
Study ID,CG_Arrival_Date/Time,Arrival_Date,Arrival_Time
2,1/1/2011 0:03,1/1/2011,0:03:00
3,1/1/2011 0:53,1/1/2011,0:53:00
"""
登录后复制

1. 解析单个日期时间列

如果 CSV 文件中已经存在一个包含完整日期和时间信息的列,我们可以直接指定该列进行解析。parse_dates 参数可以接受列名或列的整数索引。

# 使用列索引解析 'CG_Arrival_Date/Time' (索引为1)
df_single_col_index = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[1])
print("--- 解析单个列 (通过索引) ---")
print(df_single_col_index.dtypes)
print(df_single_col_index.head())

# 使用列名解析 'CG_Arrival_Date/Time'
df_single_col_name = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=['CG_Arrival_Date/Time'])
print("\n--- 解析单个列 (通过列名) ---")
print(df_single_col_name.dtypes)
print(df_single_col_name.head())
登录后复制

输出示例:

--- 解析单个列 (通过索引) ---
CG_Arrival_Date/Time    datetime64[ns]
Arrival_Date                    object
Arrival_Time                    object
dtype: object
                    CG_Arrival_Date/Time Arrival_Date Arrival_Time
Study ID                                                        
2            2011-01-01 00:03:00   1/1/2011    0:03:00
3            2011-01-01 00:53:00   1/1/2011    0:53:00

--- 解析单个列 (通过列名) ---
CG_Arrival_Date/Time    datetime64[ns]
Arrival_Date                    object
Arrival_Time                    object
dtype: object
                    CG_Arrival_Date/Time Arrival_Date Arrival_Time
Study ID                                                        
2            2011-01-01 00:03:00   1/1/2011    0:03:00
3            2011-01-01 00:53:00   1/1/2011    0:53:00
登录后复制

从输出可以看出,CG_Arrival_Date/Time 列已被成功解析为 datetime64[ns] 类型。

2. 合并多个列为单一日期时间列

当日期和时间信息分布在不同的列中时(例如,一个 Arrival_Date 列和一个 Arrival_Time 列),parse_dates 允许我们将它们合并成一个 datetime64[ns] 类型的新列。这通过向 parse_dates 提供一个包含列名或列索引对的列表来实现。

百度GBI
百度GBI

百度GBI-你的大模型商业分析助手

百度GBI 104
查看详情 百度GBI
# 合并 'Arrival_Date' (索引2) 和 'Arrival_Time' (索引3)
df_combined_cols_index = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[[2, 3]])
print("--- 合并日期和时间列 (通过索引) ---")
print(df_combined_cols_index.dtypes)
print(df_combined_cols_index.head())

# 合并 'Arrival_Date' 和 'Arrival_Time' (通过列名)
df_combined_cols_name = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[['Arrival_Date', 'Arrival_Time']])
print("\n--- 合并日期和时间列 (通过列名) ---")
print(df_combined_cols_name.dtypes)
print(df_combined_cols_name.head())
登录后复制

输出示例:

--- 合并日期和时间列 (通过索引) ---
CG_Arrival_Date/Time           object
Arrival_Date_Arrival_Time    datetime64[ns]
dtype: object
                  CG_Arrival_Date/Time Arrival_Date_Arrival_Time
Study ID                                                        
2            1/1/2011 0:03       2011-01-01 00:03:00
3            1/1/2011 0:53       2011-01-01 00:53:00

--- 合并日期和时间列 (通过列名) ---
CG_Arrival_Date/Time           object
Arrival_Date_Arrival_Time    datetime64[ns]
dtype: object
                  CG_Arrival_Date/Time Arrival_Date_Arrival_Time
Study ID                                                        
2            1/1/2011 0:03       2011-01-01 00:03:00
3            1/1/2011 0:53       2011-01-01 00:53:00
登录后复制

当合并列时,Pandas 会自动创建一个新的列,其名称由原始列名用下划线连接而成(例如 Arrival_Date_Arrival_Time)。这个新列的类型是 datetime64[ns]。

3. 处理日期格式歧义 (dayfirst 参数)

在某些情况下,日期格式可能存在歧义,例如 1/1/2011 既可以是 MM/DD/YYYY (1月1日) 也可以是 DD/MM/YYYY (1月1日)。Pandas 默认尝试解析为 MM/DD/YYYY。如果你的数据是 DD/MM/YYYY 格式,你需要使用 dayfirst=True 参数来明确指定。

# 假设日期格式为 DD/MM/YYYY,并解析 'CG_Arrival_Date/Time' 列
df_dayfirst = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[1], dayfirst=True)
print("--- 使用 dayfirst=True 解析 ---")
print(df_dayfirst.dtypes)
print(df_dayfirst.head())
登录后复制

在这个特定的示例数据中,1/1/2011 无论 dayfirst 设置为 True 还是 False,结果都是 2011-01-01,因为月份和日期都是1。然而,如果遇到像 1/15/2011 这样的日期,dayfirst=True 会将其解析为1月15日,而 dayfirst=False (默认) 则会尝试解析为15月1日(导致错误或 NaT)。因此,了解数据的实际日期格式并正确设置 dayfirst 至关重要。

注意事项与总结

  • 列名与列索引:在 parse_dates 中使用列名比使用列索引更具可读性和健壮性,因为列的顺序可能会在文件更新时发生变化。
  • 格式一致性:CSV 文件中所有待解析的日期时间数据应尽可能保持一致的格式。如果存在多种格式,Pandas 可能无法全部正确解析,此时可能需要更复杂的自定义解析函数或预处理。
  • 错误处理:如果 read_csv 无法解析某个日期时间值,它可能会将其替换为 NaT (Not a Time) 或抛出错误,具体行为取决于 errors 参数(默认为 'coerce',即替换为 NaT)。
  • 性能考虑:对于非常大的文件,指定 parse_dates 会略微增加读取时间,但通常比先读取为字符串再手动转换效率更高。

通过灵活运用 read_csv 的 parse_dates 和 dayfirst 参数,我们可以有效地将 CSV 文件中的日期和时间数据导入为 Pandas datetime64[ns] 类型,为后续的时间序列分析和数据处理奠定坚实基础。

以上就是Pandas read_csv 日期时间解析深度指南的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号