
本教程旨在解决pandas dataframe在对包含混合数据类型的行进行求和时,numeric_only=true参数失效并返回0值的问题。核心解决方案是利用pd.to_numeric函数的errors='coerce'参数,将非数值型数据安全转换为nan,然后再进行行求和,从而确保准确计算。文章还将演示如何将总秒数转换为可读的时间格式。
在数据分析实践中,我们经常需要对Pandas DataFrame的行进行数值求和。然而,当DataFrame中包含混合数据类型(例如,数字以字符串形式存储,或存在非数字文本、列表等)时,直接使用df.sum(axis=1, numeric_only=True)可能无法得到预期的结果,甚至会返回一列0.0。本教程将深入探讨这个问题的原因,并提供一个健壮的解决方案。
pandas.DataFrame.sum() 方法提供了一个 numeric_only=True 参数,旨在只对DataFrame中的数值列进行求和。然而,其工作机制可能与直觉有所不同。当一个列被指定为 numeric_only=True 时,Pandas会检查该列的整体数据类型(dtype)。如果该列中包含任何非数值型数据(即使大部分是数字,但有一两个字符串或列表),Pandas会认为该整列是非数值列,并将其排除在求和计算之外。
例如,如果一个日期列中包含了像 '29160' (字符串形式的数字) 和 'No hours logged' (非数字字符串) 这样的混合值,Pandas会将整个列识别为 object 类型,并因 numeric_only=True 而将其跳过。如果所有需要求和的列都存在这种情况,那么最终的行求和结果将是对一个空集合求和,默认返回0.0。
要正确地对包含混合数据类型的行进行求和,我们需要在求和之前,将所有潜在的数值型数据统一转换为真正的数值类型。pandas.to_numeric() 函数是完成此任务的理想工具,尤其是结合 errors='coerce' 参数。
pd.to_numeric(series, errors='coerce') 会尝试将Series中的每个元素转换为数值类型。如果转换成功,它将返回对应的数值;如果转换失败(例如,遇到 'No hours logged' 或 [10:02, Odd number: missing entry] 这样的非数字字符串),errors='coerce' 参数将把这些无效值替换为 NaN (Not a Number)。NaN 值在进行求和时会被自动忽略,从而确保求和的准确性。
首先,我们准备一个示例DataFrame,它模拟了实际数据中可能出现的混合数据类型情况。
import pandas as pd
import numpy as np # 用于可能的NaN操作
data = {
'id': {0: 514, 1: 2414, 2: 3225, 3: 3434, 4: 3864, 5: 4716, 6: 5793},
'name': {0: 'alexis', 1: 'donald', 2: 'mackenzie', 3: 'louisa', 4: 'olga', 5: 'rick', 6: 'roberta'},
'2023-11-28': {0: 'No hours logged', 1: '29160', 2: '28500', 3: '25380', 4: '15600', 5: '30180', 6: '29220'},
'2023-11-29': {0: 'No hours logged', 1: '29160', 2: '28620', 3: '18840', 4: '19080', 5: '28800', 6: '29220'},
'2023-11-30': {0: 'No hours logged', 1: '28860', 2: '28560', 3: '26040', 4: '14400', 5: '28740', 6: '29460'},
'2023-12-01': {0: 'No hours logged', 1: '28620', 2: '28620', 3: 'No hours logged', 4: '13800', 5: '28620', 6: '29280'},
'2023-12-02': {0: 'No hours logged', 1: '[10:02, Odd number: missing entry]', 2: '28980', 3: '25560', 4: '5220', 5: '28680', 6: '29340'},
'2023-12-03': {0: 'No hours logged', 1: 'No hours logged', 2: 'No hours logged', 3: 'No hours logged', 4: '17820', 5: 'No hours logged', 6: 'No hours logged'},
'2023-12-04': {0: 'No hours logged', 1: 'No hours logged', 2: 'No hours logged', 3: 'No hours logged', 4: 'No hours logged', 5: 'No hours logged', 6: 'No hours logged'},
'2023-12-05': {0: 'No hours logged', 1: '28860', 2: '28740', 3: '24900', 4: '14400', 5: '28680', 6: '29040'},
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)接下来,我们将使用 pd.to_numeric 结合 apply 方法对选定的日期列进行预处理,然后进行行求和。
# 注意:'id'是索引为0的列,'name'是索引为1的列。
# 我们需要从索引为2的列(即第一个日期列)开始选择。
# 使用 .iloc[:, 2:] 选择从第三列到最后一列的所有数据。
# 对选定列的每一列应用 pd.to_numeric,将非数字值转换为 NaN。
# 最后,对转换后的DataFrame按行求和 (axis=1)。
df['total_hours'] = (
df.iloc[:, 2:]
.apply(lambda x: pd.to_numeric(x, errors='coerce'))
.sum(axis=1)
)
print("\n添加'total_hours'列后的DataFrame(仅显示相关列):")
print(df[['id', 'name', 'total_hours']])运行上述代码,您会看到 total_hours 列现在包含了每行实际的工时总和(以秒为单位),而不是0.0。例如,对于 donald 这一行,所有有效的秒数都被正确地加总。
原始问题提到希望将总秒数转换为 HH:MM 格式。Pandas的 pd.to_timedelta() 函数可以非常方便地完成这个任务,它将秒数转换为 timedelta 对象,可以直接表示为天、小时、分钟和秒。
# 将total_hours(秒)转换为timedelta对象
df['total_hours_formatted'] = pd.to_timedelta(df['total_hours'], unit='s')
print("\n格式化后的总工时:")
print(df[['id', 'name', 'total_hours', 'total_hours_formatted']])通过 pd.to_timedelta(df['total_hours'], unit='s'),我们得到了一个更易读的时间格式,例如 1 days 16:11:00,这比原始的秒数更加直观。
通过上述方法,您可以有效地处理Pandas DataFrame中混合数据类型的行求和问题,确保计算的准确性,并将结果以更友好的格式呈现。
以上就是Pandas DataFrame行求和:解决混合数据类型导致0值结果的问题的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号