
本文介绍了如何基于多个列将两个 Pandas DataFrames 进行合并,并处理缺失值的情况。我们将探讨使用 `merge` 函数以及 `add_suffix` 函数来清晰区分左右 DataFrame 的列,并展示如何对合并后的结果进行排序。
Pandas 提供了强大的数据合并功能,其中 merge 函数是实现 DataFrame 连接的关键工具。当需要基于多个列进行连接,并且希望处理两个 DataFrame 中存在差异的数据时,需要采取一些额外的技巧。
使用 merge 和 add_suffix
最直接的方法是使用 pandas.DataFrame.merge 函数,并结合 pandas.DataFrame.add_suffix 函数来区分左右 DataFrame 的列名。
import pandas as pd
# 示例数据
df1 = pd.DataFrame({
'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'],
'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']
})
df2 = pd.DataFrame({
'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'],
'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']
})
# 使用 merge 和 add_suffix
out = df1.merge(df2.add_suffix('_'), how='outer',
left_on=['level', 'title'],
right_on=['level_', 'title_'])
print(out)这段代码首先导入 pandas 库,并创建两个示例 DataFrame df1 和 df2。然后,使用 merge 函数将这两个 DataFrame 连接起来。how='outer' 参数指定了外连接,这意味着保留两个 DataFrame 中的所有行,对于没有匹配的行,会填充 NaN 值。left_on 和 right_on 参数分别指定了左侧和右侧 DataFrame 中用于连接的列。add_suffix('_') 用于给 df2 的列名添加后缀,以避免列名冲突。
输出结果如下:
mallcloud商城基于SpringBoot2.x、SpringCloud和SpringCloudAlibaba并采用前后端分离vue的企业级微服务敏捷开发系统架构。并引入组件化的思想实现高内聚低耦合,项目代码简洁注释丰富上手容易,适合学习和企业中使用。真正实现了基于RBAC、jwt和oauth2的无状态统一权限认证的解决方案,面向互联网设计同时适合B端和C端用户,支持CI/CD多环境部署,并提
level title level_ title_ 0 Level 0 Effective Level 0 Effective 1 Level 1 Evaluation Level 1 Evaluation 2 Level 1 Ice Breaker NaN NaN 3 Level 1 Fire NaN NaN 4 Level 2 Introduction Level 2 Introduction 5 Level 2 Understanding Level 2 Understanding 6 Level 3 Connect NaN NaN 7 NaN NaN Level 1 Comedy 8 NaN NaN Level 4 Connect
基于合并键排序
如果需要对合并后的结果基于连接键进行排序,可以使用以下方法:
import pandas as pd
# 示例数据
df1 = pd.DataFrame({
'level': ['Level 0', 'Level 1', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 3'],
'title': ['Effective', 'Evaluation', 'Ice Breaker', 'Fire', 'Introduction', 'Understanding', 'Connect']
})
df2 = pd.DataFrame({
'level': ['Level 0', 'Level 1', 'Level 1', 'Level 2', 'Level 2', 'Level 4'],
'title': ['Effective', 'Evaluation', 'Comedy', 'Introduction', 'Understanding', 'Connect']
})
out = (df1.merge(df2, how='outer',
left_on=[df1['level'], df1['title']],
right_on=['level', 'title'])
.sort_values(by=['level'])
#.drop(columns=['level', 'title']) # uncomment to drop merged keys
)
print(out)这段代码与前一个示例类似,但使用了不同的 left_on 参数,将 df1['level'] 和 df1['title'] 作为列表传递给 left_on。然后,使用 sort_values 函数基于 'level' 列对结果进行排序。如果需要,可以取消注释 # .drop(columns=['level', 'title']) 行来删除合并键。
输出结果如下:
level title level_x title_x level_y title_y 0 Level 0 Effective Level 0 Effective Level 0 Effective 1 Level 1 Evaluation Level 1 Evaluation Level 1 Evaluation 2 Level 1 Ice Breaker Level 1 Ice Breaker NaN NaN 3 Level 1 Fire Level 1 Fire NaN NaN 7 Level 1 Comedy NaN NaN Level 1 Comedy 4 Level 2 Introduction Level 2 Introduction Level 2 Introduction 5 Level 2 Understanding Level 2 Understanding Level 2 Understanding 6 Level 3 Connect Level 3 Connect NaN NaN 8 Level 4 Connect NaN NaN Level 4 Connect
注意事项
- 列名冲突: 在合并 DataFrame 时,需要注意列名冲突的问题。可以使用 add_suffix 或 add_prefix 函数来避免冲突。
- 连接类型: 根据实际需求选择合适的连接类型(inner, outer, left, right)。
- 排序: 如果需要对结果进行排序,可以使用 sort_values 函数。
- 缺失值: 外连接可能会引入缺失值(NaN)。可以使用 fillna 函数来填充缺失值。
总结
本文介绍了如何基于多个列合并 Pandas DataFrames,并处理缺失值和排序的问题。通过使用 merge 函数和 add_suffix 函数,可以灵活地控制 DataFrame 的连接方式,并获得所需的结果。 理解这些技巧对于进行复杂的数据分析和处理至关重要。









