Pandas DataFrame行求和：解决混合数据类型导致0值结果的问题-Python教程-PHP中文网

Pandas DataFrame行求和：解决混合数据类型导致0值结果的问题

心靈之曲

发布： 2025-11-20 12:00:08

原创

833人浏览过

Pandas DataFrame行求和：解决混合数据类型导致0值结果的问题

本教程旨在解决pandas dataframe在对包含混合数据类型的行进行求和时，numeric_only=true参数失效并返回0值的问题。核心解决方案是利用pd.to_numeric函数的errors='coerce'参数，将非数值型数据安全转换为nan，然后再进行行求和，从而确保准确计算。文章还将演示如何将总秒数转换为可读的时间格式。

在数据分析实践中，我们经常需要对Pandas DataFrame的行进行数值求和。然而，当DataFrame中包含混合数据类型（例如，数字以字符串形式存储，或存在非数字文本、列表等）时，直接使用df.sum(axis=1, numeric_only=True)可能无法得到预期的结果，甚至会返回一列0.0。本教程将深入探讨这个问题的原因，并提供一个健壮的解决方案。

理解 numeric_only=True 的局限性

pandas.DataFrame.sum() 方法提供了一个 numeric_only=True 参数，旨在只对DataFrame中的数值列进行求和。然而，其工作机制可能与直觉有所不同。当一个列被指定为 numeric_only=True 时，Pandas会检查该列的整体数据类型（dtype）。如果该列中包含任何非数值型数据（即使大部分是数字，但有一两个字符串或列表），Pandas会认为该整列是非数值列，并将其排除在求和计算之外。

例如，如果一个日期列中包含了像 '29160' (字符串形式的数字) 和 'No hours logged' (非数字字符串) 这样的混合值，Pandas会将整个列识别为 object 类型，并因 numeric_only=True 而将其跳过。如果所有需要求和的列都存在这种情况，那么最终的行求和结果将是对一个空集合求和，默认返回0.0。

解决方案：使用 pd.to_numeric 进行预处理

要正确地对包含混合数据类型的行进行求和，我们需要在求和之前，将所有潜在的数值型数据统一转换为真正的数值类型。pandas.to_numeric() 函数是完成此任务的理想工具，尤其是结合 errors='coerce' 参数。

pd.to_numeric(series, errors='coerce') 会尝试将Series中的每个元素转换为数值类型。如果转换成功，它将返回对应的数值；如果转换失败（例如，遇到 'No hours logged' 或 [10:02, Odd number: missing entry] 这样的非数字字符串），errors='coerce' 参数将把这些无效值替换为 NaN (Not a Number)。NaN 值在进行求和时会被自动忽略，从而确保求和的准确性。

示例数据准备

首先，我们准备一个示例DataFrame，它模拟了实际数据中可能出现的混合数据类型情况。

OmniAudio

OmniAudio 是一款通过 AI 支持将网页、Word 文档、Gmail 内容、文本片段、视频音频文件都转换为音频播客，并生成可在常见 Podcast ap

111

查看详情

import pandas as pd
import numpy as np # 用于可能的NaN操作

data = {
    'id': {0: 514, 1: 2414, 2: 3225, 3: 3434, 4: 3864, 5: 4716, 6: 5793},
    'name': {0: 'alexis', 1: 'donald', 2: 'mackenzie', 3: 'louisa', 4: 'olga', 5: 'rick', 6: 'roberta'},
    '2023-11-28': {0: 'No hours logged', 1: '29160', 2: '28500', 3: '25380', 4: '15600', 5: '30180', 6: '29220'},
    '2023-11-29': {0: 'No hours logged', 1: '29160', 2: '28620', 3: '18840', 4: '19080', 5: '28800', 6: '29220'},
    '2023-11-30': {0: 'No hours logged', 1: '28860', 2: '28560', 3: '26040', 4: '14400', 5: '28740', 6: '29460'},
    '2023-12-01': {0: 'No hours logged', 1: '28620', 2: '28620', 3: 'No hours logged', 4: '13800', 5: '28620', 6: '29280'},
    '2023-12-02': {0: 'No hours logged', 1: '[10:02, Odd number: missing entry]', 2: '28980', 3: '25560', 4: '5220', 5: '28680', 6: '29340'},
    '2023-12-03': {0: 'No hours logged', 1: 'No hours logged', 2: 'No hours logged', 3: 'No hours logged', 4: '17820', 5: 'No hours logged', 6: 'No hours logged'},
    '2023-12-04': {0: 'No hours logged', 1: 'No hours logged', 2: 'No hours logged', 3: 'No hours logged', 4: 'No hours logged', 5: 'No hours logged', 6: 'No hours logged'},
    '2023-12-05': {0: 'No hours logged', 1: '28860', 2: '28740', 3: '24900', 4: '14400', 5: '28680', 6: '29040'},
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

登录后复制

执行精确的行求和

接下来，我们将使用 pd.to_numeric 结合 apply 方法对选定的日期列进行预处理，然后进行行求和。

# 注意：'id'是索引为0的列，'name'是索引为1的列。
# 我们需要从索引为2的列（即第一个日期列）开始选择。
# 使用 .iloc[:, 2:] 选择从第三列到最后一列的所有数据。
# 对选定列的每一列应用 pd.to_numeric，将非数字值转换为 NaN。
# 最后，对转换后的DataFrame按行求和 (axis=1)。
df['total_hours'] = (
    df.iloc[:, 2:]
      .apply(lambda x: pd.to_numeric(x, errors='coerce'))
      .sum(axis=1)
)

print("\n添加'total_hours'列后的DataFrame（仅显示相关列）:")
print(df[['id', 'name', 'total_hours']])

登录后复制

运行上述代码，您会看到 total_hours 列现在包含了每行实际的工时总和（以秒为单位），而不是0.0。例如，对于 donald 这一行，所有有效的秒数都被正确地加总。

格式化总工时为可读时间

原始问题提到希望将总秒数转换为 HH:MM 格式。Pandas的 pd.to_timedelta() 函数可以非常方便地完成这个任务，它将秒数转换为 timedelta 对象，可以直接表示为天、小时、分钟和秒。

# 将total_hours（秒）转换为timedelta对象
df['total_hours_formatted'] = pd.to_timedelta(df['total_hours'], unit='s')

print("\n格式化后的总工时:")
print(df[['id', 'name', 'total_hours', 'total_hours_formatted']])

登录后复制

通过 pd.to_timedelta(df['total_hours'], unit='s')，我们得到了一个更易读的时间格式，例如 1 days 16:11:00，这比原始的秒数更加直观。

注意事项与总结

数据类型检查: 在进行任何数值计算之前，始终建议检查相关列的数据类型 (df.dtypes)。这有助于识别潜在的混合数据类型问题。
errors='coerce' 的重要性: 当处理可能含有非数值字符串的列时，errors='coerce' 是将数据清洗为可计算形式的关键。它能优雅地处理无效数据，避免程序崩溃。
精确的列选择: 使用 iloc 或明确的列名列表来确保只对目标列进行操作，避免包含不需要的非数值列（如 id 或 name）。
pd.to_timedelta 的应用: 对于时间相关的数值求和，这是一个非常有用的后续处理步骤，能显著提高数据可读性。
性能考量: 对于非常大的DataFrame，apply 函数可能会比矢量化操作慢。但在大多数情况下，对于行级别的转换和求和，它的可读性和灵活性使其成为一个很好的选择。