Pandas中将'hh:mm:ss'时间格式转换为总分钟数的教程

心靈之曲
发布: 2025-07-21 14:54:17
原创
883人浏览过

Pandas中将'hh:mm:ss'时间格式转换为总分钟数的教程

本教程详细介绍了如何在Pandas DataFrame中,将'hh:mm:ss'字符串格式的时间数据转换为总分钟数。文章分析了常见的转换误区,并提供了基于字符串分割与数学运算的两种精确解决方案,包括整数分钟和浮点分钟的计算方法。此外,教程还推荐了使用Pandas内置时间序列功能pd.to_timedelta进行更健壮、高效的时间转换,并提供了代码示例及注意事项,帮助用户准确处理时间数据。

问题背景与数据准备

在数据处理中,我们经常会遇到时间数据以字符串形式存在的情况,例如'hh:mm:ss'。当需要对这类时间进行数值计算,比如将其转换为总分钟数时,就需要进行格式转换。本教程将指导您如何在pandas dataframe中高效且准确地完成这一任务。

假设我们有如下DataFrame,其中Time列为hh:mm:ss格式:

import pandas as pd

df = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})
print("原始DataFrame:")
print(df)
登录后复制

输出:

吉卜力风格图片在线生成
吉卜力风格图片在线生成

将图片转换为吉卜力艺术风格的作品

吉卜力风格图片在线生成 121
查看详情 吉卜力风格图片在线生成
原始DataFrame:
      Name      Time
0      Jim   1:33:04
1  Chrissy   0:06:39
2    Billy  10:00:02
登录后复制

我们的目标是创建一个新列_timemin,将Time列转换为对应的总分钟数,例如10:00:02应转换为600.03分钟。

常见误区与错误分析

在尝试转换时,用户可能会遇到一些常见的错误。例如,以下代码尝试使用str.split和apply函数进行转换,但会产生NameError:

# 错误的尝试,会引发 NameError
# df['_timemin'] = df['Time'].str.split(':').apply(lambda x: (int(x[0])*60) + int(x[1])) + int(x[2]/60)
登录后复制

此代码存在以下几个主要问题:

  1. apply方法未正确闭合: apply方法的作用域仅限于lambda x: (int(x[0])*60) + int(x[1])部分。+ int(x[2]/60)这部分代码在apply函数外部,导致无法访问lambda函数内部定义的变量x,从而引发NameError。
  2. 字符串到数值的转换缺失: 即使apply方法正确闭合,x[2](秒数)在进行除法运算前也需要先转换为数值类型(int或float),否则会报错。

解决方案一:基于字符串分割与数学运算

这种方法直接将时间字符串分割成小时、分钟和秒,然后通过数学公式计算总分钟数。

import pandas as pd

df = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})

# 1. 计算总分钟数(秒数部分进行整数除法,即向下取整)
# 公式:小时 * 60 + 分钟 + 秒 // 60
df['_timemin_int_sec'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) // 60)
print("\n使用整数秒数计算的总分钟数:")
print(df)

# 2. 计算总分钟数(秒数部分进行浮点除法,保留小数)
# 公式:小时 * 60 + 分钟 + 秒 / 60
df['_timemin_float_sec'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) / 60)
print("\n使用浮点秒数计算的总分钟数:")
print(df)
登录后复制

输出:

使用整数秒数计算的总分钟数:
      Name      Time  _timemin_int_sec
0      Jim   1:33:04                93
1  Chrissy   0:06:39                 6
2    Billy  10:00:02               600

使用浮点秒数计算的总分钟数:
      Name      Time  _timemin_float_sec
0      Jim   1:33:04           93.066667
1  Chrissy   0:06:39            6.650000
2    Billy  10:00:02          600.033333
登录后复制

原理分析:

  • df['Time'].str.split(':'):将Time列中的每个时间字符串按冒号:分割,返回一个包含小时、分钟、秒的列表(例如['1', '33', '04'])。
  • .apply(lambda x: ...):对每个分割后的列表x应用一个匿名函数。
  • int(x[0]) * 60:将小时部分(x[0])转换为整数并乘以60,得到小时对应的分钟数。
  • int(x[1]):将分钟部分(x[1])转换为整数。
  • int(x[2]) // 60 或 int(x[2]) / 60:将秒部分(x[2])转换为整数,然后使用整数除法//(向下取整)或浮点除法/(保留小数)转换为分钟。选择哪种除法取决于您对秒数精度(是否保留小数)的要求。

解决方案二:利用Pandas时间序列功能 (推荐)

对于时间数据处理,Pandas提供了强大的Timestamp和Timedelta对象,它们能够更健壮、更高效地处理时间相关的计算。将时间字符串转换为Timedelta对象是更专业和推荐的做法。

import pandas as pd

df = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})

# 将时间字符串转换为Timedelta对象
df['Time_timedelta'] = pd.to_timedelta(df['Time'])

# 提取总秒数并转换为总分钟数
df['_timemin_timedelta'] = df['Time_timedelta'].dt.total_seconds() / 60
print("\n使用Timedelta转换的总分钟数:")
print(df)
登录后复制

输出:

使用Timedelta转换的总分钟数:
      Name      Time Time_timedelta  _timemin_timedelta
0      Jim   1:33:04     0 days 01:33:04           93.066667
1  Chrissy   0:06:39     0 days 00:06:39            6.650000
2    Billy  10:00:02     0 days 10:00:02          600.033333
登录后复制

原理分析:

  • pd.to_timedelta(df['Time']):这是最关键的一步。Pandas会自动解析'hh:mm:ss'格式的字符串,将其转换为Timedelta对象。Timedelta对象表示一个时间段,可以进行加减运算。
  • .dt.total_seconds():Timedelta对象的.dt访问器提供了total_seconds()方法,可以直接获取该时间段的总秒数(浮点型)。
  • / 60:将总秒数除以60,即可得到总分钟数。

这种方法不仅代码更简洁,而且在处理更复杂的时间格式或需要进行时间段加减运算时,也更具通用性和鲁棒性。

注意事项

  1. 数据类型一致性: 确保时间列的数据类型是字符串,pd.to_timedelta能够很好地处理常见的字符串时间格式。
  2. 错误处理: 如果时间字符串中存在不符合hh:mm:ss格式的数据,pd.to_timedelta在默认情况下会报错。可以通过设置errors='coerce'参数来将无法解析的值转换为NaT(Not a Time),从而避免程序中断。
    df_err = pd.DataFrame({'Time': ['1:33:04', 'invalid_time', '0:06:39']})
    df_err['Time_timedelta'] = pd.to_timedelta(df_err['Time'], errors='coerce')
    df_err['_timemin'] = df_err['Time_timedelta'].dt.total_seconds() / 60
    print("\n处理无效时间数据:")
    print(df_err)
    登录后复制
  3. 性能考量: 对于非常大的数据集,pd.to_timedelta通常比str.split().apply()结合lambda函数更高效,因为它在底层使用了优化的C/Cython代码。
  4. 精度选择: 根据业务需求选择秒数是进行整数除法(// 60)还是浮点除法(/ 60),这决定了总分钟数是否包含小数部分。通常情况下,浮点分钟数更精确。

总结

本教程详细

以上就是Pandas中将'hh:mm:ss'时间格式转换为总分钟数的教程的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号