
本文旨在解决在使用 Pandas 处理包含分钟:秒格式时间数据时,遇到的 dateutil.parser._parser.ParserError: hour must be in 0..23 错误。文章将分析错误原因,并提供可行的解决方案,将时间数据转换为合适的 Pandas 时间序列格式。
当 Pandas 尝试将字符串转换为日期时间对象时,如果字符串的格式与日期时间格式不匹配,则会引发 dateutil.parser._parser.ParserError 错误。 在本例中,错误信息 hour must be in 0..23 表明 Pandas 尝试将 time 列中的值解析为包含小时的完整时间戳,但列中的数据实际上是分钟:秒的格式,其中某些值(如 '59:23.4')的小时部分大于 23,导致解析失败。
解决此问题的关键在于正确理解 time 列中数据的含义,并将其转换为合适的数据类型。 如果 time 列表示的是从某一时刻开始经过的时间(即持续时间),而不是一天中的特定时间点,则应该将其转换为 timedelta 对象。
以下是一种可行的解决方案:
import pandas as pd
# 从 Google Drive 读取数据
url = 'https://drive.google.com/uc?id=12R6nMvN81GJHSBEElP8NiXXkwtuv04wf' # 替换为你的文件 ID
df = pd.read_csv(url)
# 定义一个函数,将 "MM:SS.f" 格式的字符串转换为 timedelta 对象
def convert_to_timedelta(time_str):
try:
minutes, seconds = map(float, time_str.split(':'))
return pd.to_timedelta(minutes=minutes, seconds=seconds)
except:
return pd.NaT # 处理无法解析的值
# 将 "time" 列应用转换函数
df['time'] = df['time'].astype(str).apply(convert_to_timedelta)
# 打印转换后的数据类型和前几行数据
print(df['time'].dtype)
print(df['time'].head())代码解释:
数据清洗: 在转换之前,应确保 time 列中的数据格式一致,并处理缺失值或无效值。 例如,可以使用 df['time'] = df['time'].str.strip() 去除字符串前后的空格。
错误处理: 在 convert_to_timedelta 函数中包含了 try...except 块,用于处理无法解析的时间字符串。 根据实际情况,可以修改此部分的代码,例如将无法解析的值替换为 0 或其他合适的值。
时区问题: 如果需要处理包含时区信息的时间数据,需要使用 tz_localize 和 tz_convert 方法进行时区转换。
格式化输出: 如果需要将 timedelta 对象格式化为特定的字符串,可以使用 strftime 方法。例如:
print(df['time'].apply(lambda x: str(x)))
解决 Pandas 中 dateutil.parser._parser.ParserError: hour must be in 0..23 错误的关键在于理解数据的实际含义,并选择合适的数据类型进行转换。 如果 time 列表示的是持续时间,则应将其转换为 timedelta 对象。 通过编写自定义的转换函数,可以灵活地处理各种时间格式,并将数据转换为 Pandas 可以处理的时间序列数据。
以上就是解决 Pandas 中时间解析错误:hour must be in 0..23的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号