
在数据分析和处理中,我们经常会遇到需要将特定格式的时间字符串转换为数值型时间单位的需求。本教程的目标是将Pandas DataFrame中hh:mm:ss(时:分:秒)格式的时间列转换为以分钟为单位的总时长,可以保留小数(浮点分钟)或向下取整(整数分钟)。
首先,我们创建一个示例DataFrame:
import pandas as pd
# 创建示例DataFrame
df = pd.DataFrame({
'Name': ["Jim", "Chrissy", "Billy"],
'Time': ['1:33:04', '0:06:39', '10:00:02']
})
print("原始DataFrame:")
print(df)输出的DataFrame如下所示:
原始DataFrame:
Name Time
0 Jim 1:33:04
1 Chrissy 0:06:39
2 Billy 10:00:02我们的目标是添加一个新列,例如_timemin,将Time列中的每个时间值转换为对应的总分钟数。例如,10:00:02应转换为600.03分钟。
在尝试进行此类转换时,初学者可能会遇到一些问题。以下是一个常见的错误尝试及其原因分析:
# 错误的尝试
# df['_timemin'] = df['Time'].str.split(':').apply(lambda x: (int(x[0])*60) + int(x[1])) + int(x[2]/60)
# 上述代码会产生 NameError: name 'x' is not defined这个错误尝试存在以下几个关键问题:
理解这些错误有助于我们构建正确的解决方案。
我们将提供两种基于str.split和apply方法的解决方案,分别用于获取整数分钟数和浮点分钟数。
如果我们需要将秒数转换为分钟时进行向下取整(即忽略不足一分钟的秒数),可以使用整数除法 //。
# 方案一:转换为整数分钟数(向下取整)
df_int_minutes = df.copy() # 使用副本,避免修改原始df
df_int_minutes['_timemin_int'] = df_int_minutes['Time'].str.split(':').apply(
lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) // 60
)
print("\n转换为整数分钟数:")
print(df_int_minutes)代码解释:
输出结果:
转换为整数分钟数:
Name Time _timemin_int
0 Jim 1:33:04 93
1 Chrissy 0:06:39 6
2 Billy 10:00:02 600如果需要精确到小数的分钟数,则应使用浮点除法 / 将秒转换为分钟。
# 方案二:转换为浮点分钟数
df_float_minutes = df.copy() # 使用副本
df_float_minutes['_timemin_float'] = df_float_minutes['Time'].str.split(':').apply(
lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) / 60
)
print("\n转换为浮点分钟数:")
print(df_float_minutes)代码解释: 此方案与整数分钟数的代码类似,唯一区别在于将秒转换为分钟时使用了浮点除法 / (int(x[2]) / 60),以保留小数部分。
输出结果:
转换为浮点分钟数:
Name Time _timemin_float
0 Jim 1:33:04 93.066667
1 Chrissy 0:06:39 6.650000
2 Billy 10:00:02 600.033333虽然上述str.split结合apply的方法能够解决问题,但Pandas提供了更强大和语义化的时间处理工具。对于hh:mm:ss这种标准时间格式,推荐使用pd.to_timedelta将其转换为时间差(Timedelta)对象,然后利用Timedelta对象的属性来获取总秒数或总分钟数。这种方法通常更健壮,且能处理更多复杂的时间格式。
# 进阶方法:使用 pd.to_timedelta
df_timedelta = df.copy()
df_timedelta['timedelta'] = pd.to_timedelta(df_timedelta['Time'])
df_timedelta['_timemin_pd_elegant'] = df_timedelta['timedelta'].dt.total_seconds() / 60
print("\n使用pd.to_timedelta转换:")
print(df_timedelta)代码解释:
输出结果:
使用pd.to_timedelta转换:
Name Time timedelta _timemin_pd_elegant
0 Jim 1:33:04 0 days 01:33:04 93.066667
1 Chrissy 0:06:39 0 days 00:06:39 6.650000
2 Billy 10:00:02 0 days 10:00:02 600.033333可以看出,_timemin_pd_elegant列的结果与_timemin_float列完全一致,但代码更简洁、可读性更强。
本教程详细阐述了在Pandas中将hh:mm:ss格式时间字符串转换为总分钟数的多种方法。我们首先分析了使用str.split和apply时常见的错误,并提供了两种基于此方法的正确实现,分别用于获取整数分钟和浮点分钟。最后,我们介绍了使用pd.to_timedelta这一更符合Pandas风格的优雅解决方案。掌握这些方法将有助于您高效、准确地处理DataFrame中的时间数据,避免常见的类型转换和作用域错误。在实际项目中,推荐优先使用pd.to_timedelta以获得更好的代码可读性和鲁棒性。
以上就是Pandas中将hh:mm:ss时间字符串转换为总分钟数教程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号