
在 pandas 中,可通过列名列表配合 df[cols].apply() 和解包操作符 *,简洁高效地将任意数量的列值作为参数传入自定义函数,避免手动逐列书写。
当处理包含数十列的数据集时,若需将其中若干列(如 A 到 J 共 10 列)整体传入一个自定义函数进行行级计算,硬编码 x.A, x.B, ..., x.J 不仅冗长易错,也严重损害可维护性。此时,推荐采用「列名列表 + 列选择 + 解包调用」的组合方案。
核心思路是:*先用列表指定目标列名,再通过 df[cols] 提取子 DataFrame,最后在 apply() 中使用 `lambda x: func(x)完成位置参数的动态解包**。注意:*x在axis=1` 模式下会将当前行(Series)的值按列顺序展开为位置参数,与函数形参严格一一对应。
以下是一个完整示例:
import pandas as pd
import numpy as np
np.random.seed(26)
df = pd.DataFrame(np.random.randint(10, size=(3, 3)), columns=list('ABC'))
print("原始数据:")
print(df)
# A B C
# 0 5 6 0
# 1 1 6 3
# 2 0 4 2
def myfunction(a, b, c):
return a + 2*b - c # 示例:线性组合
cols = ['A', 'B', 'C']
df['result'] = df[cols].apply(lambda x: myfunction(*x), axis=1)
print("\n添加计算结果后:")
print(df)
# A B C result
# 0 5 6 0 17
# 1 1 6 3 10
# 2 0 4 2 6✅ 关键要点说明:
- 列名列表 cols 必须与函数形参顺序完全一致(如 myfunction(a,b,c) 要求 cols = ['A','B','C']);
- df[cols].apply(..., axis=1) 返回的是每行的标量或元组,确保函数返回类型与目标列兼容;
- 若函数需接收关键字参数而非位置参数,可改用 lambda x: myfunction(**x.to_dict()),但需保证列名与参数名完全匹配;
- 性能提示:对大数据集,优先考虑向量化操作(如 df['A'] + 2*df['B'] - df['C']),apply + lambda 属于 Python 级循环,速度较慢。
该方法兼顾灵活性与可读性,是 Pandas 行级多列处理的标准实践之一。










