如何在Python中匹配不同DataFrame中的值

碧海醫心
发布: 2025-09-11 21:26:00
原创
236人浏览过

如何在python中匹配不同dataframe中的值

本文介绍如何使用 Pandas 库在 Python 中匹配不同 DataFrame 中的值,特别是当这些 DataFrame 包含具有不同 ID 但其他信息(如用户名)相同的数据时。通过 pd.merge() 函数,我们可以基于共同列将多个 DataFrame 合并为一个,从而实现高效的数据匹配和转换。本文将提供详细的代码示例,帮助你理解和应用这种方法解决实际问题。

在数据分析和处理过程中,经常会遇到需要将来自不同数据源的数据进行关联和匹配的情况。Pandas 库提供了强大的数据操作功能,其中的 pd.merge() 函数是实现 DataFrame 数据匹配的关键工具

使用 pd.merge() 函数进行数据匹配

pd.merge() 函数允许我们基于一个或多个共同列将两个 DataFrame 合并为一个。其基本语法如下:

立即学习Python免费学习笔记(深入)”;

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=False,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)
登录后复制

其中,常用的参数包括:

  • left: 左侧的 DataFrame。
  • right: 右侧的 DataFrame。
  • on: 用于连接的列名,必须同时存在于左右两个 DataFrame 中。
  • left_on: 左侧 DataFrame 用于连接的列名。
  • right_on: 右侧 DataFrame 用于连接的列名。
  • how: 连接方式,包括 'inner'(默认)、'outer'、'left' 和 'right'。

示例:匹配具有不同 User ID 的 DataFrame

假设我们有三个 DataFrame:

百度文心百中
百度文心百中

百度大模型语义搜索体验中心

百度文心百中 22
查看详情 百度文心百中
  • df1: 包含 User ID (旧), User Name 和 User Email。
  • df2: 包含 Group Name, User ID (旧) 和 User Name。
  • df3: 包含 User ID (新), User Name 和 User Email。

我们的目标是根据 User Name 将 df1、df2 和 df3 关联起来,最终得到一个包含 Group Name, User ID (新) 的 DataFrame。

以下是实现步骤:

  1. 合并 df1 和 df2: 基于 User ID (旧) 进行合并。
import pandas as pd

# 示例数据
data1 = {'User ID': [1, 2, 3], 'User Name': ['Alice', 'Bob', 'Charlie'], 'User Email': ['alice@example.com', 'bob@example.com', 'charlie@example.com']}
data2 = {'Group Name': ['GroupA', 'GroupB', 'GroupA'], 'User ID': [1, 2, 3], 'User Name': ['Alice', 'Bob', 'Charlie']}
data3 = {'User ID': [101, 102, 103], 'User Name': ['Alice', 'Bob', 'Charlie'], 'User Email': ['alice@example.com', 'bob@example.com', 'charlie@example.com']}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df3 = pd.DataFrame(data3)


df_12 = pd.merge(df1, df2, on=['User ID'])
print("合并 df1 和 df2:")
print(df_12)
登录后复制
  1. 重命名 df3 的 User ID 列: 为了避免列名冲突,将 df3 的 User ID 列重命名为 'old User ID'。实际上应该重命名为New User ID, 否则会报错。
df3 = df3.rename(columns={'User ID': 'New User ID'})
print("\n重命名 df3 的 User ID 列:")
print(df3)
登录后复制
  1. 合并 df_12 和 df3: 基于 User Name 进行合并。
df_total = pd.merge(df_12, df3, on=['User Name'])
print("\n合并 df_12 和 df3:")
print(df_total)
登录后复制

现在,df_total 包含了 User ID (旧) 和 User ID (新) 以及其他相关信息。

代码示例:完整流程

import pandas as pd

# 示例数据
data1 = {'User ID': [1, 2, 3], 'User Name': ['Alice', 'Bob', 'Charlie'], 'User Email': ['alice@example.com', 'bob@example.com', 'charlie@example.com']}
data2 = {'Group Name': ['GroupA', 'GroupB', 'GroupA'], 'User ID': [1, 2, 3], 'User Name': ['Alice', 'Bob', 'Charlie']}
data3 = {'User ID': [101, 102, 103], 'User Name': ['Alice', 'Bob', 'Charlie'], 'User Email': ['alice@example.com', 'bob@example.com', 'charlie@example.com']}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df3 = pd.DataFrame(data3)

# 合并 df1 和 df2
df_12 = pd.merge(df1, df2, on=['User ID'])

# 重命名 df3 的 User ID 列
df3 = df3.rename(columns={'User ID': 'New User ID'})

# 合并 df_12 和 df3
df_total = pd.merge(df_12, df3, on=['User Name'])

print(df_total)
登录后复制

注意事项

  • 确保用于合并的列名在 DataFrame 中存在且数据类型一致。
  • 如果多个 DataFrame 包含相同的列名,可以使用 suffixes 参数来区分它们。
  • 根据实际需求选择合适的 how 参数,例如 'left' 可以保留左侧 DataFrame 的所有行。
  • 在处理大型数据集时,注意内存使用情况,避免出现内存溢出。

总结

pd.merge() 函数是 Pandas 库中强大的数据匹配工具,可以灵活地将不同 DataFrame 中的数据关联起来。通过合理使用 pd.merge() 函数,可以高效地解决各种数据匹配和转换问题,为后续的数据分析和建模提供便利。

以上就是如何在Python中匹配不同DataFrame中的值的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号