
本文介绍了一种在 Pandas DataFrame 中处理包含变量的字符串表达式的方法,尤其适用于从 Excel 读取数据后,需要根据 DataFrame 中其他列的值计算新列的情况。文章提供了一种安全且高效的解决方案,避免使用 eval() 函数,并详细解释了实现步骤和代码示例。
在数据处理过程中,我们经常会遇到从外部文件(如 Excel)读取数据的情况。读取后的数据可能包含一些字符串表达式,这些表达式依赖于 DataFrame 中的其他列的值。例如,某一列的值可能是 "A+2",其中 A 代表另一列的值。如何安全有效地计算这些表达式的值,并将结果存储到新的列中,是本文要解决的问题。
解决方案:字符串分割与数值计算
为了避免使用 eval() 函数(因为其存在安全风险),我们可以采用字符串分割和数值计算的方法。具体步骤如下:
import pandas as pd
df = pd.DataFrame({'ID': ['01', '02'], 'A': [5, 8], 'B': ['A+2', 'A+4']})
print(df)df['C'] = df['B'].str.split('+').str[1]
print(df)df = df.astype({'A': 'int64', 'C': 'int64'})
print(df)df['C'] = df['A'] + df['C'] print(df)
完整代码示例:
import pandas as pd
# 创建示例 DataFrame
df = pd.DataFrame({'ID': ['01', '02'], 'A': [5, 8], 'B': ['A+2', 'A+4']})
# 提取数值部分
df['C'] = df['B'].str.split('+').str[1]
# 类型转换
df = df.astype({'A': 'int64', 'C': 'int64'})
# 计算新列
df['C'] = df['A'] + df['C']
print(df)输出结果:
ID A B C 0 01 5 A+2 7 1 02 8 A+4 12
注意事项:
总结:
本文提供了一种安全有效的解决方案,用于处理 Pandas DataFrame 中包含变量的字符串表达式。通过字符串分割和数值计算,我们可以避免使用 eval() 函数,提高代码的安全性和可维护性。该方法适用于从 Excel 读取数据后,需要根据 DataFrame 中其他列的值计算新列的场景。在实际应用中,需要根据具体的表达式形式进行相应的调整。
以上就是从字符串中调用变量:Pandas数据处理技巧的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号