Pandas DataFrame行求和:解决混合数据类型导致0值结果的问题

心靈之曲
发布: 2025-11-20 12:00:08
原创
833人浏览过

Pandas DataFrame行求和:解决混合数据类型导致0值结果的问题

本教程旨在解决pandas dataframe在对包含混合数据类型的行进行求和时,numeric_only=true参数失效并返回0值的问题。核心解决方案是利用pd.to_numeric函数的errors='coerce'参数,将非数值型数据安全转换为nan,然后再进行行求和,从而确保准确计算。文章还将演示如何将总秒数转换为可读的时间格式。

在数据分析实践中,我们经常需要对Pandas DataFrame的行进行数值求和。然而,当DataFrame中包含混合数据类型(例如,数字以字符串形式存储,或存在非数字文本、列表等)时,直接使用df.sum(axis=1, numeric_only=True)可能无法得到预期的结果,甚至会返回一列0.0。本教程将深入探讨这个问题的原因,并提供一个健壮的解决方案。

理解 numeric_only=True 的局限性

pandas.DataFrame.sum() 方法提供了一个 numeric_only=True 参数,旨在只对DataFrame中的数值列进行求和。然而,其工作机制可能与直觉有所不同。当一个列被指定为 numeric_only=True 时,Pandas会检查该列的整体数据类型(dtype)。如果该列中包含任何非数值型数据(即使大部分是数字,但有一两个字符串或列表),Pandas会认为该整列是非数值列,并将其排除在求和计算之外。

例如,如果一个日期列中包含了像 '29160' (字符串形式的数字) 和 'No hours logged' (非数字字符串) 这样的混合值,Pandas会将整个列识别为 object 类型,并因 numeric_only=True 而将其跳过。如果所有需要求和的列都存在这种情况,那么最终的行求和结果将是对一个空集合求和,默认返回0.0。

解决方案:使用 pd.to_numeric 进行预处理

要正确地对包含混合数据类型的行进行求和,我们需要在求和之前,将所有潜在的数值型数据统一转换为真正的数值类型。pandas.to_numeric() 函数是完成此任务的理想工具,尤其是结合 errors='coerce' 参数。

pd.to_numeric(series, errors='coerce') 会尝试将Series中的每个元素转换为数值类型。如果转换成功,它将返回对应的数值;如果转换失败(例如,遇到 'No hours logged' 或 [10:02, Odd number: missing entry] 这样的非数字字符串),errors='coerce' 参数将把这些无效值替换为 NaN (Not a Number)。NaN 值在进行求和时会被自动忽略,从而确保求和的准确性。

示例数据准备

首先,我们准备一个示例DataFrame,它模拟了实际数据中可能出现的混合数据类型情况。

OmniAudio
OmniAudio

OmniAudio 是一款通过 AI 支持将网页、Word 文档、Gmail 内容、文本片段、视频音频文件都转换为音频播客,并生成可在常见 Podcast ap

OmniAudio 111
查看详情 OmniAudio
import pandas as pd
import numpy as np # 用于可能的NaN操作

data = {
    'id': {0: 514, 1: 2414, 2: 3225, 3: 3434, 4: 3864, 5: 4716, 6: 5793},
    'name': {0: 'alexis', 1: 'donald', 2: 'mackenzie', 3: 'louisa', 4: 'olga', 5: 'rick', 6: 'roberta'},
    '2023-11-28': {0: 'No hours logged', 1: '29160', 2: '28500', 3: '25380', 4: '15600', 5: '30180', 6: '29220'},
    '2023-11-29': {0: 'No hours logged', 1: '29160', 2: '28620', 3: '18840', 4: '19080', 5: '28800', 6: '29220'},
    '2023-11-30': {0: 'No hours logged', 1: '28860', 2: '28560', 3: '26040', 4: '14400', 5: '28740', 6: '29460'},
    '2023-12-01': {0: 'No hours logged', 1: '28620', 2: '28620', 3: 'No hours logged', 4: '13800', 5: '28620', 6: '29280'},
    '2023-12-02': {0: 'No hours logged', 1: '[10:02, Odd number: missing entry]', 2: '28980', 3: '25560', 4: '5220', 5: '28680', 6: '29340'},
    '2023-12-03': {0: 'No hours logged', 1: 'No hours logged', 2: 'No hours logged', 3: 'No hours logged', 4: '17820', 5: 'No hours logged', 6: 'No hours logged'},
    '2023-12-04': {0: 'No hours logged', 1: 'No hours logged', 2: 'No hours logged', 3: 'No hours logged', 4: 'No hours logged', 5: 'No hours logged', 6: 'No hours logged'},
    '2023-12-05': {0: 'No hours logged', 1: '28860', 2: '28740', 3: '24900', 4: '14400', 5: '28680', 6: '29040'},
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)
登录后复制

执行精确的行求和

接下来,我们将使用 pd.to_numeric 结合 apply 方法对选定的日期列进行预处理,然后进行行求和。

# 注意:'id'是索引为0的列,'name'是索引为1的列。
# 我们需要从索引为2的列(即第一个日期列)开始选择。
# 使用 .iloc[:, 2:] 选择从第三列到最后一列的所有数据。
# 对选定列的每一列应用 pd.to_numeric,将非数字值转换为 NaN。
# 最后,对转换后的DataFrame按行求和 (axis=1)。
df['total_hours'] = (
    df.iloc[:, 2:]
      .apply(lambda x: pd.to_numeric(x, errors='coerce'))
      .sum(axis=1)
)

print("\n添加'total_hours'列后的DataFrame(仅显示相关列):")
print(df[['id', 'name', 'total_hours']])
登录后复制

运行上述代码,您会看到 total_hours 列现在包含了每行实际的工时总和(以秒为单位),而不是0.0。例如,对于 donald 这一行,所有有效的秒数都被正确地加总。

格式化总工时为可读时间

原始问题提到希望将总秒数转换为 HH:MM 格式。Pandas的 pd.to_timedelta() 函数可以非常方便地完成这个任务,它将秒数转换为 timedelta 对象,可以直接表示为天、小时、分钟和秒。

# 将total_hours(秒)转换为timedelta对象
df['total_hours_formatted'] = pd.to_timedelta(df['total_hours'], unit='s')

print("\n格式化后的总工时:")
print(df[['id', 'name', 'total_hours', 'total_hours_formatted']])
登录后复制

通过 pd.to_timedelta(df['total_hours'], unit='s'),我们得到了一个更易读的时间格式,例如 1 days 16:11:00,这比原始的秒数更加直观。

注意事项与总结

  1. 数据类型检查: 在进行任何数值计算之前,始终建议检查相关列的数据类型 (df.dtypes)。这有助于识别潜在的混合数据类型问题。
  2. errors='coerce' 的重要性: 当处理可能含有非数值字符串的列时,errors='coerce' 是将数据清洗为可计算形式的关键。它能优雅地处理无效数据,避免程序崩溃。
  3. 精确的列选择: 使用 iloc 或明确的列名列表来确保只对目标列进行操作,避免包含不需要的非数值列(如 id 或 name)。
  4. pd.to_timedelta 的应用: 对于时间相关的数值求和,这是一个非常有用的后续处理步骤,能显著提高数据可读性。
  5. 性能考量: 对于非常大的DataFrame,apply 函数可能会比矢量化操作慢。但在大多数情况下,对于行级别的转换和求和,它的可读性和灵活性使其成为一个很好的选择。

通过上述方法,您可以有效地处理Pandas DataFrame中混合数据类型的行求和问题,确保计算的准确性,并将结果以更友好的格式呈现。

以上就是Pandas DataFrame行求和:解决混合数据类型导致0值结果的问题的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号