
本文档旨在指导读者如何使用 Pandas 库有效地合并两个行数不同的数据集,分别包含 4000 行和 864000 行,且具有不同的特征集。我们将探讨 pd.concat() 和 pd.merge() 两种方法,并详细解释如何根据实际情况选择合适的合并策略,处理缺失值,以及避免常见的错误,最终生成一个包含所有必要信息的统一数据集,为后续的分析和建模提供便利。
在数据分析和机器学习项目中,经常会遇到需要合并来自不同来源的数据集的情况。这些数据集可能具有不同的行数和列数,合并的目的是将这些信息整合到一个统一的结构中,以便进行更全面的分析和建模。Pandas 库提供了强大的数据合并功能,本文将介绍两种常用的方法:pd.concat() 和 pd.merge(),并结合实际案例,详细讲解如何选择合适的合并策略。
pd.concat() 函数主要用于沿轴方向连接 Pandas 对象。它可以将多个 DataFrame 对象沿着行(axis=0)或列(axis=1)方向堆叠起来。
基本语法:
import pandas as pd result = pd.concat([df1, df2], axis=0, join='outer', ignore_index=False, sort=False)
示例:
假设我们有两个 DataFrame,df1 包含 4000 行数据和 7 个特征,df2 包含 864000 行数据和 5 个特征。
import pandas as pd
import numpy as np
# 创建示例 DataFrame
data1 = {'feature1': np.random.rand(4000), 'feature2': np.random.rand(4000), 'feature3': np.random.rand(4000), 'feature4': np.random.rand(4000), 'feature5': np.random.rand(4000), 'feature6': np.random.rand(4000), 'feature7': np.random.rand(4000)}
df1 = pd.DataFrame(data1)
data2 = {'feature1': np.random.rand(864000), 'feature2': np.random.rand(864000), 'feature3': np.random.rand(864000), 'feature4': np.random.rand(864000), 'feature5': np.random.rand(864000)}
df2 = pd.DataFrame(data2)
# 使用 concat 合并
result = pd.concat([df1, df2], sort=False)
print(result.head())
print(result.tail())在这个例子中,pd.concat() 会将 df1 和 df2 沿着行方向堆叠起来。由于 df1 有 feature6 和 feature7 两列,而 df2 没有,因此在合并后的 DataFrame 中,df2 对应的 feature6 和 feature7 列的值会填充为 NaN。
注意事项:
pd.merge() 函数用于根据一个或多个共享列将两个 DataFrame 连接起来,类似于 SQL 中的 JOIN 操作。
基本语法:
result = pd.merge(df1, df2, on='IDENTIFIER', how='left')
示例:
假设 df1 包含客户的基本信息,df2 包含客户的信用评分信息,两个 DataFrame 都有一个共同的列 customer_id。
import pandas as pd
import numpy as np
# 创建示例 DataFrame
data1 = {'customer_id': [1, 2, 3, 4, 5], 'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 'age': [25, 30, 28, 35, 22]}
df1 = pd.DataFrame(data1)
data2 = {'customer_id': [3, 4, 5, 6, 7], 'credit_score': [700, 750, 800, 650, 720]}
df2 = pd.DataFrame(data2)
# 使用 merge 合并
result = pd.merge(df1, df2, on='customer_id', how='left')
print(result)在这个例子中,我们使用 pd.merge() 将 df1 和 df2 根据 customer_id 列进行左连接。结果 DataFrame 中,df1 的所有行都会被保留,df2 中与 df1 的 customer_id 匹配的行会被添加到 df1 中。如果 df2 中没有与 df1 的 customer_id 匹配的行,则对应的 credit_score 列的值会填充为 NaN。
注意事项:
在某些情况下,如果数据集的行数差异过大,可能会导致合并后的数据集出现偏差。例如,在银行信用卡案例中,如果简单地将包含大量客户数据的 DataFrame 与包含少量新客户数据的 DataFrame 合并,可能会导致模型过于关注已有客户的特征。
为了解决这个问题,可以考虑使用降采样或升采样技术。
df2_sampled = df2.sample(n=4000, random_state=42)
选择降采样或升采样的原则:
重要提示: 在银行信用卡案例中,直接降采样可能导致重要的客户信息丢失,特别是当 customer_id 在两个数据集中不完全一致时。因此,在进行降采样之前,需要确保抽样后的数据集能够代表原始数据集的特征,并且不会引入偏差。
本文介绍了使用 Pandas 库合并具有不同行数的两个数据集的两种常用方法:pd.concat() 和 pd.merge()。pd.concat() 适用于简单地将两个 DataFrame 堆叠起来的情况,而 pd.merge() 适用于根据共享列将两个 DataFrame 连接起来的情况。在实际应用中,需要根据数据的特点和合并的目的选择合适的合并策略。此外,如果数据集的行数差异过大,可以考虑使用降采样或升采样技术来平衡数据集。 在合并数据时,务必注意数据质量,处理缺失值,并仔细验证合并结果,以确保数据的准确性和可靠性。
以上就是合并具有不同行数的两个数据集:Pandas实战指南的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号