Pandas中将'hh:mm:ss'时间格式转换为总分钟数的教程

心靈之曲

发布时间：2025-07-21 14:54:17

897人浏览过

来源于php中文网

原创

Pandas中将'hh:mm:ss'时间格式转换为总分钟数的教程

本教程详细介绍了如何在Pandas DataFrame中，将'hh:mm:ss'字符串格式的时间数据转换为总分钟数。文章分析了常见的转换误区，并提供了基于字符串分割与数学运算的两种精确解决方案，包括整数分钟和浮点分钟的计算方法。此外，教程还推荐了使用Pandas内置时间序列功能pd.to_timedelta进行更健壮、高效的时间转换，并提供了代码示例及注意事项，帮助用户准确处理时间数据。

问题背景与数据准备

在数据处理中，我们经常会遇到时间数据以字符串形式存在的情况，例如'hh:mm:ss'。当需要对这类时间进行数值计算，比如将其转换为总分钟数时，就需要进行格式转换。本教程将指导您如何在pandas dataframe中高效且准确地完成这一任务。

假设我们有如下DataFrame，其中Time列为hh:mm:ss格式：

import pandas as pd

df = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})
print("原始DataFrame:")
print(df)

输出：

BibiGPT-哔哔终结者

B站视频总结器-一键总结音视频内容

下载

原始DataFrame:
      Name      Time
0      Jim   1:33:04
1  Chrissy   0:06:39
2    Billy  10:00:02

我们的目标是创建一个新列_timemin，将Time列转换为对应的总分钟数，例如10:00:02应转换为600.03分钟。

常见误区与错误分析

在尝试转换时，用户可能会遇到一些常见的错误。例如，以下代码尝试使用str.split和apply函数进行转换，但会产生NameError：

# 错误的尝试，会引发 NameError
# df['_timemin'] = df['Time'].str.split(':').apply(lambda x: (int(x[0])*60) + int(x[1])) + int(x[2]/60)

此代码存在以下几个主要问题：

apply方法未正确闭合： apply方法的作用域仅限于lambda x: (int(x[0])*60) + int(x[1])部分。+ int(x[2]/60)这部分代码在apply函数外部，导致无法访问lambda函数内部定义的变量x，从而引发NameError。
字符串到数值的转换缺失： 即使apply方法正确闭合，x[2]（秒数）在进行除法运算前也需要先转换为数值类型（int或float），否则会报错。

解决方案一：基于字符串分割与数学运算

这种方法直接将时间字符串分割成小时、分钟和秒，然后通过数学公式计算总分钟数。

import pandas as pd

df = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})

# 1. 计算总分钟数（秒数部分进行整数除法，即向下取整）
# 公式：小时 * 60 + 分钟 + 秒 // 60
df['_timemin_int_sec'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) // 60)
print("\n使用整数秒数计算的总分钟数:")
print(df)

# 2. 计算总分钟数（秒数部分进行浮点除法，保留小数）
# 公式：小时 * 60 + 分钟 + 秒 / 60
df['_timemin_float_sec'] = df['Time'].str.split(':').apply(lambda x: int(x[0]) * 60 + int(x[1]) + int(x[2]) / 60)
print("\n使用浮点秒数计算的总分钟数:")
print(df)

输出：

使用整数秒数计算的总分钟数:
      Name      Time  _timemin_int_sec
0      Jim   1:33:04                93
1  Chrissy   0:06:39                 6
2    Billy  10:00:02               600

使用浮点秒数计算的总分钟数:
      Name      Time  _timemin_float_sec
0      Jim   1:33:04           93.066667
1  Chrissy   0:06:39            6.650000
2    Billy  10:00:02          600.033333

原理分析：

df['Time'].str.split(':')：将Time列中的每个时间字符串按冒号:分割，返回一个包含小时、分钟、秒的列表（例如['1', '33', '04']）。
.apply(lambda x: ...)：对每个分割后的列表x应用一个匿名函数。
int(x[0]) * 60：将小时部分（x[0]）转换为整数并乘以60，得到小时对应的分钟数。
int(x[1])：将分钟部分（x[1]）转换为整数。
int(x[2]) // 60 或 int(x[2]) / 60：将秒部分（x[2]）转换为整数，然后使用整数除法//（向下取整）或浮点除法/（保留小数）转换为分钟。选择哪种除法取决于您对秒数精度（是否保留小数）的要求。

解决方案二：利用Pandas时间序列功能 (推荐)

对于时间数据处理，Pandas提供了强大的Timestamp和Timedelta对象，它们能够更健壮、更高效地处理时间相关的计算。将时间字符串转换为Timedelta对象是更专业和推荐的做法。

import pandas as pd

df = pd.DataFrame({'Name': ["Jim", "Chrissy", "Billy"], 'Time': ['1:33:04', '0:06:39', '10:00:02']})

# 将时间字符串转换为Timedelta对象
df['Time_timedelta'] = pd.to_timedelta(df['Time'])

# 提取总秒数并转换为总分钟数
df['_timemin_timedelta'] = df['Time_timedelta'].dt.total_seconds() / 60
print("\n使用Timedelta转换的总分钟数:")
print(df)

输出：

使用Timedelta转换的总分钟数:
      Name      Time Time_timedelta  _timemin_timedelta
0      Jim   1:33:04     0 days 01:33:04           93.066667
1  Chrissy   0:06:39     0 days 00:06:39            6.650000
2    Billy  10:00:02     0 days 10:00:02          600.033333

原理分析：

pd.to_timedelta(df['Time'])：这是最关键的一步。Pandas会自动解析'hh:mm:ss'格式的字符串，将其转换为Timedelta对象。Timedelta对象表示一个时间段，可以进行加减运算。
.dt.total_seconds()：Timedelta对象的.dt访问器提供了total_seconds()方法，可以直接获取该时间段的总秒数（浮点型）。
/ 60：将总秒数除以60，即可得到总分钟数。

这种方法不仅代码更简洁，而且在处理更复杂的时间格式或需要进行时间段加减运算时，也更具通用性和鲁棒性。

注意事项

数据类型一致性： 确保时间列的数据类型是字符串，pd.to_timedelta能够很好地处理常见的字符串时间格式。

错误处理： 如果时间字符串中存在不符合hh:mm:ss格式的数据，pd.to_timedelta在默认情况下会报错。可以通过设置errors='coerce'参数来将无法解析的值转换为NaT（Not a Time），从而避免程序中断。

df_err = pd.DataFrame({'Time': ['1:33:04', 'invalid_time', '0:06:39']})
df_err['Time_timedelta'] = pd.to_timedelta(df_err['Time'], errors='coerce')
df_err['_timemin'] = df_err['Time_timedelta'].dt.total_seconds() / 60
print("\n处理无效时间数据:")
print(df_err)

性能考量： 对于非常大的数据集，pd.to_timedelta通常比str.split().apply()结合lambda函数更高效，因为它在底层使用了优化的C/Cython代码。
精度选择： 根据业务需求选择秒数是进行整数除法（// 60）还是浮点除法（/ 60），这决定了总分钟数是否包含小数部分。通常情况下，浮点分钟数更精确。