合并具有不同行数的两个数据集:Pandas实战指南

聖光之護
发布: 2025-08-08 18:24:17
原创
1008人浏览过

合并具有不同行数的两个数据集:pandas实战指南

本文档旨在指导读者如何使用 Pandas 库有效地合并两个行数不同的数据集,分别包含 4000 行和 864000 行,且具有不同的特征集。我们将探讨 pd.concat() 和 pd.merge() 两种方法,并详细解释如何根据实际情况选择合适的合并策略,处理缺失值,以及避免常见的错误,最终生成一个包含所有必要信息的统一数据集,为后续的分析和建模提供便利。

在数据分析和机器学习项目中,经常会遇到需要合并来自不同来源的数据集的情况。这些数据集可能具有不同的行数和列数,合并的目的是将这些信息整合到一个统一的结构中,以便进行更全面的分析和建模。Pandas 库提供了强大的数据合并功能,本文将介绍两种常用的方法:pd.concat() 和 pd.merge(),并结合实际案例,详细讲解如何选择合适的合并策略。

使用 pd.concat() 合并数据集

pd.concat() 函数主要用于沿轴方向连接 Pandas 对象。它可以将多个 DataFrame 对象沿着行(axis=0)或列(axis=1)方向堆叠起来。

基本语法:

OmniAudio
OmniAudio

OmniAudio 是一款通过 AI 支持将网页、Word 文档、Gmail 内容、文本片段、视频音频文件都转换为音频播客,并生成可在常见 Podcast ap

OmniAudio 111
查看详情 OmniAudio
import pandas as pd

result = pd.concat([df1, df2], axis=0, join='outer', ignore_index=False, sort=False)
登录后复制
  • [df1, df2]: 需要合并的 DataFrame 对象列表。
  • axis: 指定连接的轴。axis=0 (默认) 沿行方向连接,axis=1 沿列方向连接。
  • join: 指定如何处理索引。'outer' (默认) 执行并集操作,保留所有索引。'inner' 执行交集操作,只保留共同的索引。
  • ignore_index: 如果为 True,则重新生成索引。
  • sort: 如果为 True,则对非连接轴上的列进行排序。

示例:

假设我们有两个 DataFrame,df1 包含 4000 行数据和 7 个特征,df2 包含 864000 行数据和 5 个特征。

import pandas as pd
import numpy as np

# 创建示例 DataFrame
data1 = {'feature1': np.random.rand(4000), 'feature2': np.random.rand(4000), 'feature3': np.random.rand(4000), 'feature4': np.random.rand(4000), 'feature5': np.random.rand(4000), 'feature6': np.random.rand(4000), 'feature7': np.random.rand(4000)}
df1 = pd.DataFrame(data1)

data2 = {'feature1': np.random.rand(864000), 'feature2': np.random.rand(864000), 'feature3': np.random.rand(864000), 'feature4': np.random.rand(864000), 'feature5': np.random.rand(864000)}
df2 = pd.DataFrame(data2)

# 使用 concat 合并
result = pd.concat([df1, df2], sort=False)

print(result.head())
print(result.tail())
登录后复制

在这个例子中,pd.concat() 会将 df1 和 df2 沿着行方向堆叠起来。由于 df1 有 feature6 和 feature7 两列,而 df2 没有,因此在合并后的 DataFrame 中,df2 对应的 feature6 和 feature7 列的值会填充为 NaN。

注意事项:

  • 当两个 DataFrame 的列名不完全一致时,pd.concat() 会自动填充缺失值。
  • 如果需要重新生成索引,可以设置 ignore_index=True。
  • sort=False 可以避免不必要的列排序,提高效率。

使用 pd.merge() 合并数据集

pd.merge() 函数用于根据一个或多个共享列将两个 DataFrame 连接起来,类似于 SQL 中的 JOIN 操作。

基本语法:

result = pd.merge(df1, df2, on='IDENTIFIER', how='left')
登录后复制
  • df1, df2: 需要合并的 DataFrame 对象。
  • on: 指定用于连接的列名。
  • how: 指定连接方式。
    • 'left': 左连接,保留左侧 DataFrame 的所有行,将右侧 DataFrame 中匹配的行添加到左侧。
    • 'right': 右连接,保留右侧 DataFrame 的所有行,将左侧 DataFrame 中匹配的行添加到右侧。
    • 'outer': 外连接,保留两个 DataFrame 的所有行,如果某一侧没有匹配的行,则填充 NaN。
    • 'inner': 内连接,只保留两个 DataFrame 中都存在的行。

示例:

假设 df1 包含客户的基本信息,df2 包含客户的信用评分信息,两个 DataFrame 都有一个共同的列 customer_id。

import pandas as pd
import numpy as np

# 创建示例 DataFrame
data1 = {'customer_id': [1, 2, 3, 4, 5], 'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'age': [25, 30, 28, 35, 22]}
df1 = pd.DataFrame(data1)

data2 = {'customer_id': [3, 4, 5, 6, 7], 'credit_score': [700, 750, 800, 650, 720]}
df2 = pd.DataFrame(data2)

# 使用 merge 合并
result = pd.merge(df1, df2, on='customer_id', how='left')

print(result)
登录后复制

在这个例子中,我们使用 pd.merge() 将 df1 和 df2 根据 customer_id 列进行左连接。结果 DataFrame 中,df1 的所有行都会被保留,df2 中与 df1 的 customer_id 匹配的行会被添加到 df1 中。如果 df2 中没有与 df1 的 customer_id 匹配的行,则对应的 credit_score 列的值会填充为 NaN。

注意事项:

  • 确保用于连接的列名在两个 DataFrame 中一致。
  • 根据实际需求选择合适的连接方式。
  • 如果需要连接多个列,可以将 on 参数设置为一个列名列表。

降采样与升采样

在某些情况下,如果数据集的行数差异过大,可能会导致合并后的数据集出现偏差。例如,在银行信用卡案例中,如果简单地将包含大量客户数据的 DataFrame 与包含少量新客户数据的 DataFrame 合并,可能会导致模型过于关注已有客户的特征。

为了解决这个问题,可以考虑使用降采样或升采样技术。

  • 降采样 (Downsampling): 从较大的数据集中随机抽取一部分数据,使其与较小的数据集行数相近。
df2_sampled = df2.sample(n=4000, random_state=42)
登录后复制
  • 升采样 (Upsampling): 通过复制或生成新的数据,增加较小数据集的行数,使其与较大的数据集行数相近。升采样需要谨慎使用,因为过度复制数据可能会导致过拟合。

选择降采样或升采样的原则:

  • 如果较大的数据集包含大量冗余信息,可以考虑降采样。
  • 如果较小的数据集非常重要,并且希望模型能够更好地学习这些数据,可以考虑升采样。
  • 在进行降采样或升采样之前,需要仔细分析数据的特点,并根据实际情况选择合适的策略。

重要提示: 在银行信用卡案例中,直接降采样可能导致重要的客户信息丢失,特别是当 customer_id 在两个数据集中不完全一致时。因此,在进行降采样之前,需要确保抽样后的数据集能够代表原始数据集的特征,并且不会引入偏差。

总结

本文介绍了使用 Pandas 库合并具有不同行数的两个数据集的两种常用方法:pd.concat() 和 pd.merge()。pd.concat() 适用于简单地将两个 DataFrame 堆叠起来的情况,而 pd.merge() 适用于根据共享列将两个 DataFrame 连接起来的情况。在实际应用中,需要根据数据的特点和合并的目的选择合适的合并策略。此外,如果数据集的行数差异过大,可以考虑使用降采样或升采样技术来平衡数据集。 在合并数据时,务必注意数据质量,处理缺失值,并仔细验证合并结果,以确保数据的准确性和可靠性。

以上就是合并具有不同行数的两个数据集:Pandas实战指南的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号