基于多列合并 Pandas DataFrames 的方法

碧海醫心

发布时间：2025-11-18 13:31:00

188人浏览过

来源于php中文网

原创

基于多列合并 pandas dataframes 的方法

本文介绍了如何基于多个列将两个 Pandas DataFrames 进行合并，并处理缺失值的情况。我们将探讨使用 `merge` 函数以及 `add_suffix` 函数来清晰区分左右 DataFrame 的列，并展示如何对合并后的结果进行排序。

Pandas 提供了强大的数据合并功能，其中 merge 函数是实现 DataFrame 连接的关键工具。当需要基于多个列进行连接，并且希望处理两个 DataFrame 中存在差异的数据时，需要采取一些额外的技巧。

使用 merge 和 add_suffix

最直接的方法是使用 pandas.DataFrame.merge 函数，并结合 pandas.DataFrame.add_suffix 函数来区分左右 DataFrame 的列名。

import pandas as pd

# 示例数据
df1 = pd.DataFrame({
    'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'],
    'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']
})

df2 = pd.DataFrame({
    'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'],
    'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']
})

# 使用 merge 和 add_suffix
out = df1.merge(df2.add_suffix('_'), how='outer',
                left_on=['level', 'title'],
                right_on=['level_', 'title_'])

print(out)

这段代码首先导入 pandas 库，并创建两个示例 DataFrame df1 和 df2。然后，使用 merge 函数将这两个 DataFrame 连接起来。how='outer' 参数指定了外连接，这意味着保留两个 DataFrame 中的所有行，对于没有匹配的行，会填充 NaN 值。left_on 和 right_on 参数分别指定了左侧和右侧 DataFrame 中用于连接的列。add_suffix('_') 用于给 df2 的列名添加后缀，以避免列名冲突。

输出结果如下：

mallcloud商城

mallcloud商城基于SpringBoot2.x、SpringCloud和SpringCloudAlibaba并采用前后端分离vue的企业级微服务敏捷开发系统架构。并引入组件化的思想实现高内聚低耦合，项目代码简洁注释丰富上手容易，适合学习和企业中使用。真正实现了基于RBAC、jwt和oauth2的无状态统一权限认证的解决方案，面向互联网设计同时适合B端和C端用户，支持CI/CD多环境部署，并提

下载

     level          title   level_         title_
0  Level 0      Effective  Level 0      Effective
1  Level 1     Evaluation  Level 1     Evaluation
2  Level 1    Ice Breaker      NaN            NaN
3  Level 1           Fire      NaN            NaN
4  Level 2   Introduction  Level 2   Introduction
5  Level 2  Understanding  Level 2  Understanding
6  Level 3        Connect      NaN            NaN
7      NaN            NaN  Level 1         Comedy
8      NaN            NaN  Level 4        Connect

基于合并键排序

如果需要对合并后的结果基于连接键进行排序，可以使用以下方法：

import pandas as pd

# 示例数据
df1 = pd.DataFrame({
    'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'],
    'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']
})

df2 = pd.DataFrame({
    'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'],
    'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']
})


out = (df1.merge(df2, how='outer',
                 left_on=[df1['level'], df1['title']],
                 right_on=['level', 'title'])
          .sort_values(by=['level'])
          #.drop(columns=['level', 'title']) # uncomment to drop merged keys
      )

print(out)

这段代码与前一个示例类似，但使用了不同的 left_on 参数，将 df1['level'] 和 df1['title'] 作为列表传递给 left_on。然后，使用 sort_values 函数基于 'level' 列对结果进行排序。如果需要，可以取消注释 # .drop(columns=['level', 'title']) 行来删除合并键。

输出结果如下：

     level          title  level_x        title_x  level_y        title_y
0  Level 0      Effective  Level 0      Effective  Level 0      Effective
1  Level 1     Evaluation  Level 1     Evaluation  Level 1     Evaluation
2  Level 1    Ice Breaker  Level 1    Ice Breaker      NaN            NaN
3  Level 1           Fire  Level 1           Fire      NaN            NaN
7  Level 1         Comedy      NaN            NaN  Level 1         Comedy
4  Level 2   Introduction  Level 2   Introduction  Level 2   Introduction
5  Level 2  Understanding  Level 2  Understanding  Level 2  Understanding
6  Level 3        Connect  Level 3        Connect      NaN            NaN
8  Level 4        Connect      NaN            NaN  Level 4        Connect

注意事项

列名冲突： 在合并 DataFrame 时，需要注意列名冲突的问题。可以使用 add_suffix 或 add_prefix 函数来避免冲突。
连接类型： 根据实际需求选择合适的连接类型（inner, outer, left, right）。
排序： 如果需要对结果进行排序，可以使用 sort_values 函数。
缺失值： 外连接可能会引入缺失值（NaN）。可以使用 fillna 函数来填充缺失值。

总结

本文介绍了如何基于多个列合并 Pandas DataFrames，并处理缺失值和排序的问题。通过使用 merge 函数和 add_suffix 函数，可以灵活地控制 DataFrame 的连接方式，并获得所需的结果。理解这些技巧对于进行复杂的数据分析和处理至关重要。

Python机器学习核心教程_监督学习与无监督学习

PythonAI大模型上下文教程_长对话记忆实现

PythonAI学习资源教程_书籍课程工具选择

python如何整体缩进

Python类属性与实例属性教程_作用范围解析

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据分析的方法

数据分析的方法有：对比分析法，分组分析法，预测分析法，漏斗分析法，AB测试分析法，象限分析法，公式拆解法，可行域分析法，二八分析法，假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

460

2023.07.04

数据分析方法有哪几种

数据分析方法有：1、描述性统计分析；2、探索性数据分析；3、假设检验；4、回归分析；5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容，供大家免费下载体验。

274

2023.08.07

网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站，实现网站的目标。

724

2023.10.16

数据分析网站推荐

数据分析网站推荐：1、商业数据分析论坛；2、人大经济论坛-计量经济学与统计区；3、中国统计论坛；4、数据挖掘学习交流论坛；5、数据分析论坛；6、网站数据分析；7、数据分析；8、数据挖掘研究院；9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容，可以阅读本专题下面的文章。

502

2024.03.13

Python 数据分析处理

本专题聚焦 Python 在数据分析领域的应用，系统讲解 Pandas、NumPy 的数据清洗、处理、分析与统计方法，并结合数据可视化、销售分析、科研数据处理等实战案例，帮助学员掌握使用 Python 高效进行数据分析与决策支持的核心技能。

2025.09.08

Python 数据分析与可视化

本专题聚焦 Python 在数据分析与可视化领域的核心应用，系统讲解数据清洗、数据统计、Pandas 数据操作、NumPy 数组处理、Matplotlib 与 Seaborn 可视化技巧等内容。通过实战案例（如销售数据分析、用户行为可视化、趋势图与热力图绘制），帮助学习者掌握从原始数据到可视化报告的完整分析能力。

2025.10.14