合并具有不同行数的两个数据集：Pandas实战指南

聖光之護

发布时间：2025-08-08 18:24:17

1020人浏览过

来源于php中文网

原创

合并具有不同行数的两个数据集：pandas实战指南

本文档旨在指导读者如何使用 Pandas 库有效地合并两个行数不同的数据集，分别包含 4000 行和 864000 行，且具有不同的特征集。我们将探讨 pd.concat() 和 pd.merge() 两种方法，并详细解释如何根据实际情况选择合适的合并策略，处理缺失值，以及避免常见的错误，最终生成一个包含所有必要信息的统一数据集，为后续的分析和建模提供便利。

在数据分析和机器学习项目中，经常会遇到需要合并来自不同来源的数据集的情况。这些数据集可能具有不同的行数和列数，合并的目的是将这些信息整合到一个统一的结构中，以便进行更全面的分析和建模。Pandas 库提供了强大的数据合并功能，本文将介绍两种常用的方法：pd.concat() 和 pd.merge()，并结合实际案例，详细讲解如何选择合适的合并策略。

使用 pd.concat() 合并数据集

pd.concat() 函数主要用于沿轴方向连接 Pandas 对象。它可以将多个 DataFrame 对象沿着行（axis=0）或列（axis=1）方向堆叠起来。

基本语法:

星火作家大神

星火作家大神是一款面向作家的AI写作工具

下载

import pandas as pd

result = pd.concat([df1, df2], axis=0, join='outer', ignore_index=False, sort=False)

[df1, df2]: 需要合并的 DataFrame 对象列表。
axis: 指定连接的轴。axis=0 (默认) 沿行方向连接，axis=1 沿列方向连接。
join: 指定如何处理索引。'outer' (默认) 执行并集操作，保留所有索引。'inner' 执行交集操作，只保留共同的索引。
ignore_index: 如果为 True，则重新生成索引。
sort: 如果为 True，则对非连接轴上的列进行排序。

示例:

假设我们有两个 DataFrame，df1 包含 4000 行数据和 7 个特征，df2 包含 864000 行数据和 5 个特征。

import pandas as pd
import numpy as np

# 创建示例 DataFrame
data1 = {'feature1': np.random.rand(4000), 'feature2': np.random.rand(4000), 'feature3': np.random.rand(4000), 'feature4': np.random.rand(4000), 'feature5': np.random.rand(4000), 'feature6': np.random.rand(4000), 'feature7': np.random.rand(4000)}
df1 = pd.DataFrame(data1)

data2 = {'feature1': np.random.rand(864000), 'feature2': np.random.rand(864000), 'feature3': np.random.rand(864000), 'feature4': np.random.rand(864000), 'feature5': np.random.rand(864000)}
df2 = pd.DataFrame(data2)

# 使用 concat 合并
result = pd.concat([df1, df2], sort=False)

print(result.head())
print(result.tail())

在这个例子中，pd.concat() 会将 df1 和 df2 沿着行方向堆叠起来。由于 df1 有 feature6 和 feature7 两列，而 df2 没有，因此在合并后的 DataFrame 中，df2 对应的 feature6 和 feature7 列的值会填充为 NaN。

注意事项:

当两个 DataFrame 的列名不完全一致时，pd.concat() 会自动填充缺失值。
如果需要重新生成索引，可以设置 ignore_index=True。
sort=False 可以避免不必要的列排序，提高效率。

使用 pd.merge() 合并数据集

pd.merge() 函数用于根据一个或多个共享列将两个 DataFrame 连接起来，类似于 SQL 中的 JOIN 操作。

基本语法:

result = pd.merge(df1, df2, on='IDENTIFIER', how='left')

df1, df2: 需要合并的 DataFrame 对象。
on: 指定用于连接的列名。
how: 指定连接方式。
- 'left': 左连接，保留左侧 DataFrame 的所有行，将右侧 DataFrame 中匹配的行添加到左侧。
- 'right': 右连接，保留右侧 DataFrame 的所有行，将左侧 DataFrame 中匹配的行添加到右侧。
- 'outer': 外连接，保留两个 DataFrame 的所有行，如果某一侧没有匹配的行，则填充 NaN。
- 'inner': 内连接，只保留两个 DataFrame 中都存在的行。

示例:

假设 df1 包含客户的基本信息，df2 包含客户的信用评分信息，两个 DataFrame 都有一个共同的列 customer_id。

import pandas as pd
import numpy as np

# 创建示例 DataFrame
data1 = {'customer_id': [1, 2, 3, 4, 5], 'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'age': [25, 30, 28, 35, 22]}
df1 = pd.DataFrame(data1)

data2 = {'customer_id': [3, 4, 5, 6, 7], 'credit_score': [700, 750, 800, 650, 720]}
df2 = pd.DataFrame(data2)

# 使用 merge 合并
result = pd.merge(df1, df2, on='customer_id', how='left')

print(result)

在这个例子中，我们使用 pd.merge() 将 df1 和 df2 根据 customer_id 列进行左连接。结果 DataFrame 中，df1 的所有行都会被保留，df2 中与 df1 的 customer_id 匹配的行会被添加到 df1 中。如果 df2 中没有与 df1 的 customer_id 匹配的行，则对应的 credit_score 列的值会填充为 NaN。

注意事项:

确保用于连接的列名在两个 DataFrame 中一致。
根据实际需求选择合适的连接方式。
如果需要连接多个列，可以将 on 参数设置为一个列名列表。

降采样与升采样

在某些情况下，如果数据集的行数差异过大，可能会导致合并后的数据集出现偏差。例如，在银行信用卡案例中，如果简单地将包含大量客户数据的 DataFrame 与包含少量新客户数据的 DataFrame 合并，可能会导致模型过于关注已有客户的特征。

为了解决这个问题，可以考虑使用降采样或升采样技术。

降采样 (Downsampling): 从较大的数据集中随机抽取一部分数据，使其与较小的数据集行数相近。

df2_sampled = df2.sample(n=4000, random_state=42)

升采样 (Upsampling): 通过复制或生成新的数据，增加较小数据集的行数，使其与较大的数据集行数相近。升采样需要谨慎使用，因为过度复制数据可能会导致过拟合。

选择降采样或升采样的原则:

如果较大的数据集包含大量冗余信息，可以考虑降采样。
如果较小的数据集非常重要，并且希望模型能够更好地学习这些数据，可以考虑升采样。
在进行降采样或升采样之前，需要仔细分析数据的特点，并根据实际情况选择合适的策略。

重要提示： 在银行信用卡案例中，直接降采样可能导致重要的客户信息丢失，特别是当 customer_id 在两个数据集中不完全一致时。因此，在进行降采样之前，需要确保抽样后的数据集能够代表原始数据集的特征，并且不会引入偏差。

总结

本文介绍了使用 Pandas 库合并具有不同行数的两个数据集的两种常用方法：pd.concat() 和 pd.merge()。pd.concat() 适用于简单地将两个 DataFrame 堆叠起来的情况，而 pd.merge() 适用于根据共享列将两个 DataFrame 连接起来的情况。在实际应用中，需要根据数据的特点和合并的目的选择合适的合并策略。此外，如果数据集的行数差异过大，可以考虑使用降采样或升采样技术来平衡数据集。在合并数据时，务必注意数据质量，处理缺失值，并仔细验证合并结果，以确保数据的准确性和可靠性。

PythonAI面试准备教程_核心问题与考察点

PythonAI项目学习法教程_通过实战掌握模型应用

PythonAI入门到进阶教程_完整成长路径解析

PythonAI学习资源教程_书籍课程工具选择

Python转人工智能路径教程_少走弯路的学习方法