使用字典值按键划分DataFrame列的多种方法

碧海醫心
发布: 2025-07-13 17:24:20
原创
685人浏览过

使用字典值按键划分dataframe列的多种方法

本文介绍了如何根据DataFrame中某一列的值(键)去字典中查找对应的值,并将DataFrame的另一列除以该值。针对字典中不存在对应键的情况,提供了多种处理策略,避免出现NaN值,确保数据处理的准确性和完整性。

在数据分析和处理中,经常需要根据某些ID将DataFrame中的数值进行调整。例如,你可能有一个DataFrame包含integer_id和delta两列,并且有一个字典,该字典将integer_id映射到某个比例因子。你的目标是根据字典中的比例因子来调整delta列的值。如果integer_id在字典中找不到对应的比例因子,则保持delta列的值不变。

下面将介绍几种实现该目标的有效方法。

方法一:使用apply函数

apply函数可以逐行或逐列地应用自定义函数到DataFrame。这使得我们可以访问每一行的integer_id,并在字典中查找对应的比例因子。如果integer_id存在于字典中,则将delta除以该比例因子;否则,保持delta不变。

import pandas as pd

df = pd.DataFrame({
  "integer_id": [1, 2, 3],
  "delta": [10, 20, 30]
})

d = {1: 0.5, 3: 0.25}

df['delta'] = df.apply(lambda r: r['delta']/d.get(r['integer_id'], 1), axis=1)

print(df)
登录后复制

这段代码首先定义了一个DataFrame df 和一个字典 d。然后,使用 apply 函数遍历 DataFrame 的每一行。对于每一行,lambda 函数 lambda r: r['delta']/d.get(r['integer_id'], 1) 获取 delta 列的值,并将其除以字典 d 中与 integer_id 对应的 value。d.get(r['integer_id'], 1) 的作用是:如果 integer_id 存在于字典 d 中,则返回对应的 value;否则,返回默认值 1,保证 delta 列的值不会被除以 0 或 NaN。axis=1 参数指定 apply 函数按行应用。

方法二:使用map函数和fillna函数

map函数可以将DataFrame的某一列的值映射到另一个值,通常用于替换或转换数据。fillna函数用于填充缺失值(NaN)。

import pandas as pd

df = pd.DataFrame({
  "integer_id": [1, 2, 3],
  "delta": [10, 20, 30]
})

d = {1: 0.5, 3: 0.25}

df["delta"] = df["delta"] / df.integer_id.map(d).fillna(1)

print(df)
登录后复制

这段代码首先使用 df.integer_id.map(d) 将 integer_id 列的值映射到字典 d 中对应的 value。如果 integer_id 不存在于字典 d 中,则映射结果为 NaN。然后,使用 fillna(1) 将 NaN 值替换为 1,保证 delta 列的值不会被除以 NaN。最后,将 delta 列除以映射后的值。

方法三:使用replace函数和fillna函数

replace函数可以替换DataFrame中的特定值。

import pandas as pd

df = pd.DataFrame({
  "integer_id": [1, 2, 3],
  "delta": [10, 20, 30]
})

d = {1: 0.5, 3: 0.25}

divisor = df['integer_id'].replace(d)
divisor = divisor.apply(lambda x: d[x] if x in d else 1)
df['delta'] = df['delta'] / divisor

print(df)
登录后复制

这段代码首先使用 df['integer_id'].replace(d) 尝试将 integer_id 列的值替换为字典 d 中对应的 value。但是,由于 replace 函数默认情况下只替换完全匹配的值,因此需要结合 apply 函数和条件判断来实现目标。对于 integer_id 存在于字典 d 中的情况,使用 d[x] 获取对应的 value;否则,返回默认值 1。最后,将 delta 列除以替换后的值。

总结与注意事项

以上三种方法都可以实现根据字典值按键划分DataFrame列的目标。

  • apply函数的灵活性最高,可以处理复杂的逻辑,但通常性能略低于其他方法。
  • map函数和fillna函数的组合简洁高效,适用于简单的映射和缺失值处理。
  • replace函数虽然可以替换值,但需要结合其他函数才能实现目标。

在选择方法时,应根据实际情况权衡代码的可读性、性能和灵活性。 此外,务必注意处理字典中不存在对应键的情况,避免出现NaN值,确保数据处理的准确性和完整性。

以上就是使用字典值按键划分DataFrame列的多种方法的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
相关标签:
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号