
本文详细介绍了如何在pandas dataframe中高效、准确地将日期时间字符串转换为datetime对象。重点讲解了使用`pd.to_datetime()`函数处理复杂日期时间格式(如包含毫秒)的方法,并强调了正确格式化字符串(特别是`%f`用于毫秒)的重要性,以避免常见的类型转换错误。文章还提供了示例代码和最佳实践,确保数据转换的准确性和健壮性。
在数据分析和处理中,将字符串形式的日期时间数据转换为可操作的datetime对象是常见的任务。尤其在使用Pandas DataFrame时,这种转换需要特别注意格式匹配和方法选择,以避免诸如“'str' object cannot be interpreted as an integer”之类的类型错误。本教程将深入探讨如何利用Pandas的强大功能,特别是pd.to_datetime(),来有效处理日期时间字符串转换。
当我们从CSV或其他数据源中读取日期时间数据时,它们通常以字符串形式存在。例如,一个常见的日期时间格式可能是 YY:MM:DD HH:MM:SS:MS,如 23:09:28 16:03:40:7。如果尝试使用Python标准库中的datetime.datetime函数直接处理DataFrame中的一列,并使用不完整的格式字符串(例如 %y:%m:%d %H:%M:%S 缺少毫秒部分),则很容易遇到以下问题:
Pandas提供了专门用于日期时间转换的函数 pd.to_datetime(),它能够高效地处理整个DataFrame列,并提供了灵活的格式化选项。
pd.to_datetime() 是将字符串、数字或datetime对象转换为Pandas datetime对象的首选方法。它具有以下优点:
解决日期时间转换问题的关键在于精确匹配日期时间字符串的格式。对于 YY:MM:DD HH:MM:SS:MS 这样的格式,其中 MS 代表毫秒,我们需要使用 %f 来匹配微秒(Python的 datetime 和 Pandas 的 to_datetime 都使用 %f 来表示微秒,即使输入是毫秒,也会被解析为微秒,例如 7 会被解析为 7000 微秒)。
下表列出了一些常用的格式代码:
| 代码 | 含义 | 示例 |
|---|---|---|
| %y | 两位数年份 | 23 |
| %Y | 四位数年份 | 2023 |
| %m | 月份(01-12) | 09 |
| %d | 日期(01-31) | 28 |
| %H | 小时(24小时制,00-23) | 16 |
| %M | 分钟(00-59) | 03 |
| %S | 秒(00-59) | 40 |
| %f | 微秒(000000-999999) | 7000 (对于输入7) |
因此,对于 23:09:28 16:03:40:7 这样的字符串,正确的格式字符串应该是 "%y:%m:%d %H:%M:%S:%f"。
假设我们有一个Pandas DataFrame df,其中包含一个名为 RunStartTime 的列,其数据格式如前所述。
首先,我们创建一个示例DataFrame:
import pandas as pd
import numpy as np
# 创建一个示例DataFrame
data = {'RunStartTime': ['23:09:28 16:03:40:7', '23:10:01 09:15:22:123', '24:01:15 23:59:59:999']}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)
print("\nRunStartTime 列的数据类型:", df['RunStartTime'].dtype)输出:
原始DataFrame:
RunStartTime
0 23:09:28 16:03:40:7
1 23:10:01 09:15:22:123
2 24:01:15 23:59:59:999
RunStartTime 列的数据类型: object现在,使用 pd.to_datetime() 进行转换,并指定正确的格式字符串:
# 使用 pd.to_datetime() 转换日期时间字符串
# 注意:格式字符串中 %y 代表两位数年份,%f 代表微秒
df['RunStartTime_dt'] = pd.to_datetime(df['RunStartTime'], format="%y:%m:%d %H:%M:%S:%f")
print("\n转换后的DataFrame:")
print(df)
print("\nRunStartTime_dt 列的数据类型:", df['RunStartTime_dt'].dtype)输出:
转换后的DataFrame:
RunStartTime RunStartTime_dt
0 23:09:28 16:03:40:7 2023-09-28 16:03:40.000007
1 23:10:01 09:15:22:123 2023-10-01 09:15:22.000123
2 24:01:15 23:59:59:999 2020-01-15 23:59:59.000999
RunStartTime_dt 列的数据类型: datetime64[ns]可以看到,RunStartTime_dt 列已成功转换为 datetime64[ns] 类型,并且毫秒部分也得到了正确解析。
如果只需要日期部分,而不需要时间信息,可以使用 .dt.normalize() 方法。这个方法会将时间部分设置为午夜(00:00:00)。
# 仅获取日期部分
df['date_only'] = df['RunStartTime_dt'].dt.normalize()
print("\n仅包含日期部分的DataFrame:")
print(df)
print("\ndate_only 列的数据类型:", df['date_only'].dtype)输出:
仅包含日期部分的DataFrame:
RunStartTime RunStartTime_dt date_only
0 23:09:28 16:03:40:7 2023-09-28 16:03:40.000007 2023-09-28
1 23:10:01 09:15:22:123 2023-10-01 09:15:22.000123 2023-10-01
2 24:01:15 23:59:59:999 2020-01-15 23:59:59.000999 2020-01-15
date_only 列的数据类型: datetime64[ns]虽然 date_only 列的数据类型仍然是 datetime64[ns],但其时间部分已被归一化为 00:00:00。
处理无法解析的值:如果数据中可能存在无法解析的日期时间字符串,可以使用 errors 参数:
df_err = pd.DataFrame({'time_str': ['23:09:28 16:03:40:7', 'invalid_date', '24:01:15 23:59:59:999']})
df_err['parsed_time'] = pd.to_datetime(df_err['time_str'], format="%y:%m:%d %H:%M:%S:%f", errors='coerce')
print("\n处理错误值的DataFrame:")
print(df_err)输出:
处理错误值的DataFrame:
time_str parsed_time
0 23:09:28 16:03:40:7 2023-09-28 16:03:40.000007
1 invalid_date NaT
2 24:01:15 23:59:59:999 2020-01-15 23:59:59.000999性能优化:
提取日期时间组件:一旦列被转换为 datetime64[ns] 类型,就可以使用 .dt 访问器来方便地提取年、月、日、小时等组件:
print("\n提取日期时间组件:")
print("年份:", df['RunStartTime_dt'].dt.year)
print("月份:", df['RunStartTime_dt'].dt.month)
print("日期:", df['RunStartTime_dt'].dt.day)
print("小时:", df['RunStartTime_dt'].dt.hour)
print("毫秒 (原始微秒除以1000):", df['RunStartTime_dt'].dt.microsecond / 1000)输出:
提取日期时间组件: 年份: 0 2023 1 2023 2 2020 Name: RunStartTime_dt, dtype: int64 月份: 0 9 1 10 2 1 Name: RunStartTime_dt, dtype: int64 日期: 0 28 1 1 2 15 Name: RunStartTime_dt, dtype: int64 小时: 0 16 1 9 2 23 Name: RunStartTime_dt, dtype: int64 毫秒 (原始微秒除以1000): 0 7.0 1 123.0 2 999.0 Name: RunStartTime_dt, dtype: float64
在Pandas中处理日期时间字符串时,pd.to_datetime() 是一个不可或缺的工具。通过正确理解和使用 format 参数,特别是针对包含毫秒的字符串使用 %f,可以高效且准确地将字符串数据转换为可操作的datetime对象。同时,利用 errors='coerce' 进行健壮性处理,以及 .dt 访问器提取日期时间组件,将极大地提升数据清洗和分析的效率。遵循这些最佳实践,可以避免常见的转换错误,并确保日期时间数据的完整性和可用性。
以上就是Pandas中日期时间字符串的正确转换与格式化的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号