
在使用 pandas 处理 csv 数据时,日期和时间列常常以字符串(object)类型被导入,这会限制后续的日期时间操作。为了充分利用 pandas 强大的时间序列功能,我们需要确保这些列被正确解析为 datetime64[ns] 类型。read_csv 函数提供了 parse_dates 参数来专门处理这一需求。
parse_dates 参数是 read_csv 中用于指定哪些列应该被解析为日期时间类型,它接受多种形式的输入:
以下我们将通过示例数据来演示 parse_csv 的不同用法。
为了方便演示和重现,我们使用 io.StringIO 模块模拟一个 CSV 文件内容:
import pandas as pd from io import StringIO csv_text = """ Study ID,CG_Arrival_Date/Time,Arrival_Date,Arrival_Time 2,1/1/2011 0:03,1/1/2011,0:03:00 3,1/1/2011 0:53,1/1/2011,0:53:00 """
如果 CSV 文件中已经存在一个包含完整日期和时间信息的列,我们可以直接指定该列进行解析。parse_dates 参数可以接受列名或列的整数索引。
# 使用列索引解析 'CG_Arrival_Date/Time' (索引为1)
df_single_col_index = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[1])
print("--- 解析单个列 (通过索引) ---")
print(df_single_col_index.dtypes)
print(df_single_col_index.head())
# 使用列名解析 'CG_Arrival_Date/Time'
df_single_col_name = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=['CG_Arrival_Date/Time'])
print("\n--- 解析单个列 (通过列名) ---")
print(df_single_col_name.dtypes)
print(df_single_col_name.head())输出示例:
--- 解析单个列 (通过索引) ---
CG_Arrival_Date/Time datetime64[ns]
Arrival_Date object
Arrival_Time object
dtype: object
CG_Arrival_Date/Time Arrival_Date Arrival_Time
Study ID
2 2011-01-01 00:03:00 1/1/2011 0:03:00
3 2011-01-01 00:53:00 1/1/2011 0:53:00
--- 解析单个列 (通过列名) ---
CG_Arrival_Date/Time datetime64[ns]
Arrival_Date object
Arrival_Time object
dtype: object
CG_Arrival_Date/Time Arrival_Date Arrival_Time
Study ID
2 2011-01-01 00:03:00 1/1/2011 0:03:00
3 2011-01-01 00:53:00 1/1/2011 0:53:00从输出可以看出,CG_Arrival_Date/Time 列已被成功解析为 datetime64[ns] 类型。
当日期和时间信息分布在不同的列中时(例如,一个 Arrival_Date 列和一个 Arrival_Time 列),parse_dates 允许我们将它们合并成一个 datetime64[ns] 类型的新列。这通过向 parse_dates 提供一个包含列名或列索引对的列表来实现。
# 合并 'Arrival_Date' (索引2) 和 'Arrival_Time' (索引3)
df_combined_cols_index = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[[2, 3]])
print("--- 合并日期和时间列 (通过索引) ---")
print(df_combined_cols_index.dtypes)
print(df_combined_cols_index.head())
# 合并 'Arrival_Date' 和 'Arrival_Time' (通过列名)
df_combined_cols_name = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[['Arrival_Date', 'Arrival_Time']])
print("\n--- 合并日期和时间列 (通过列名) ---")
print(df_combined_cols_name.dtypes)
print(df_combined_cols_name.head())输出示例:
--- 合并日期和时间列 (通过索引) ---
CG_Arrival_Date/Time object
Arrival_Date_Arrival_Time datetime64[ns]
dtype: object
CG_Arrival_Date/Time Arrival_Date_Arrival_Time
Study ID
2 1/1/2011 0:03 2011-01-01 00:03:00
3 1/1/2011 0:53 2011-01-01 00:53:00
--- 合并日期和时间列 (通过列名) ---
CG_Arrival_Date/Time object
Arrival_Date_Arrival_Time datetime64[ns]
dtype: object
CG_Arrival_Date/Time Arrival_Date_Arrival_Time
Study ID
2 1/1/2011 0:03 2011-01-01 00:03:00
3 1/1/2011 0:53 2011-01-01 00:53:00当合并列时,Pandas 会自动创建一个新的列,其名称由原始列名用下划线连接而成(例如 Arrival_Date_Arrival_Time)。这个新列的类型是 datetime64[ns]。
在某些情况下,日期格式可能存在歧义,例如 1/1/2011 既可以是 MM/DD/YYYY (1月1日) 也可以是 DD/MM/YYYY (1月1日)。Pandas 默认尝试解析为 MM/DD/YYYY。如果你的数据是 DD/MM/YYYY 格式,你需要使用 dayfirst=True 参数来明确指定。
# 假设日期格式为 DD/MM/YYYY,并解析 'CG_Arrival_Date/Time' 列
df_dayfirst = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[1], dayfirst=True)
print("--- 使用 dayfirst=True 解析 ---")
print(df_dayfirst.dtypes)
print(df_dayfirst.head())在这个特定的示例数据中,1/1/2011 无论 dayfirst 设置为 True 还是 False,结果都是 2011-01-01,因为月份和日期都是1。然而,如果遇到像 1/15/2011 这样的日期,dayfirst=True 会将其解析为1月15日,而 dayfirst=False (默认) 则会尝试解析为15月1日(导致错误或 NaT)。因此,了解数据的实际日期格式并正确设置 dayfirst 至关重要。
通过灵活运用 read_csv 的 parse_dates 和 dayfirst 参数,我们可以有效地将 CSV 文件中的日期和时间数据导入为 Pandas datetime64[ns] 类型,为后续的时间序列分析和数据处理奠定坚实基础。
以上就是Pandas read_csv 日期时间解析深度指南的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号