0

0

合并不同大小的数据集:Pandas实战指南

心靈之曲

心靈之曲

发布时间:2025-08-08 18:28:14

|

535人浏览过

|

来源于php中文网

原创

合并不同大小的数据集:pandas实战指南

本文旨在指导读者如何使用 Pandas 库有效地合并两个大小不同的数据集。我们将探讨 pd.concat() 和 pd.merge() 这两个关键函数,并针对实际应用场景,特别是当数据集拥有不同数量的特征时,提供详细的操作步骤和注意事项。通过本文的学习,你将能够灵活运用 Pandas 合并数据,为后续的数据分析和建模奠定坚实的基础。

在数据分析和机器学习项目中,经常需要合并来自不同来源或具有不同特征的数据集。 Pandas 库提供了强大的数据处理能力,其中 pd.concat() 和 pd.merge() 是两个常用的函数,用于合并 DataFrame 对象。本教程将详细介绍如何使用这两个函数,并针对不同场景提供示例代码和注意事项。

使用 pd.concat() 合并数据集

pd.concat() 函数主要用于沿着一条轴(行或列)连接 DataFrame 对象。当两个数据集的列名不完全相同,但希望将它们简单地堆叠在一起时,pd.concat() 非常有用。

基本用法:

import pandas as pd

# 创建两个示例 DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8], 'C': [9, 10, 11, 12]})
df2 = pd.DataFrame({'A': [13, 14, 15, 16], 'B': [17, 18, 19, 20], 'D': [21, 22, 23, 24]})

# 使用 pd.concat() 合并 DataFrame
result = pd.concat([df1, df2], sort=False)
print(result)

输出结果:

     A   B     C     D
0   1   5   9.0   NaN
1   2   6  10.0   NaN
2   3   7  11.0   NaN
3   4   8  12.0   NaN
0  13  17   NaN  21.0
1  14  18   NaN  22.0
2  15  19   NaN  23.0
3  16  20   NaN  24.0

解释:

  • pd.concat([df1, df2], sort=False) 将 df1 和 df2 沿着行方向(默认)连接起来。
  • sort=False 避免对列进行排序,保持原始顺序。
  • 对于 df1 中没有 D 列和 df2 中没有 C 列的行,相应的值会填充为 NaN。

注意事项:

Viggle AI
Viggle AI

Viggle AI是一个AI驱动的3D动画生成平台,可以帮助用户创建可控角色的3D动画视频。

下载
  • pd.concat() 默认沿着行方向连接(axis=0)。如果需要沿着列方向连接,可以设置 axis=1。
  • 如果需要重置索引,可以设置 ignore_index=True。
  • join 参数控制如何处理索引不同的情况,默认为 'outer' (并集),也可以设置为 'inner' (交集)。

使用 pd.merge() 合并数据集

pd.merge() 函数用于基于一个或多个共享列将两个 DataFrame 对象连接起来,类似于 SQL 中的 JOIN 操作。当两个数据集有共同的标识符列,并且需要根据这些标识符将信息合并在一起时,pd.merge() 是首选方法。

基本用法:

import pandas as pd

# 创建两个示例 DataFrame
df1 = pd.DataFrame({'ID': [1, 2, 3, 4], 'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Value1': [10, 20, 30, 40]})
df2 = pd.DataFrame({'ID': [2, 4, 5, 6], 'Value2': [50, 60, 70, 80]})

# 使用 pd.merge() 合并 DataFrame
result = pd.merge(df1, df2, on='ID', how='left')
print(result)

输出结果:

   ID     Name  Value1  Value2
0   1    Alice      10     NaN
1   2      Bob      20    50.0
2   3  Charlie      30     NaN
3   4    David      40    60.0

解释:

  • pd.merge(df1, df2, on='ID', how='left') 基于 ID 列将 df1 和 df2 合并。
  • how='left' 表示左连接,保留 df1 中的所有行,并将 df2 中匹配的行添加到 df1。如果 df2 中没有匹配的 ID,则 Value2 列填充为 NaN。

注意事项:

  • on 参数指定用于合并的列名。如果两个 DataFrame 中连接列的名称不同,可以使用 left_on 和 right_on 参数分别指定。
  • how 参数控制连接方式,常用的选项包括:
    • 'left':左连接,保留左侧 DataFrame 的所有行。
    • 'right':右连接,保留右侧 DataFrame 的所有行。
    • 'inner':内连接,只保留两个 DataFrame 中都存在的行。
    • 'outer':外连接,保留两个 DataFrame 中的所有行,并用 NaN 填充缺失值。

实际应用:银行信用卡案例

假设有两个数据集:

  • df1:包含 4000 个客户的信息,包括客户 ID 和 7 个特征。
  • df2:包含 864000 个客户的信息,包括客户 ID 和 5 个特征。

目标是合并这两个数据集,以便进行更全面的客户分析。

解决方案:

  1. 确定共享列: 确保两个数据集都有一个共同的标识符列,例如 'customer_id'。如果列名不同,需要先进行重命名。

  2. 使用 pd.merge() 进行合并:

import pandas as pd

# 假设 df1 和 df2 已经加载到 Pandas DataFrame 中
# 假设两个数据集都有 'customer_id' 列

# 使用左连接,保留 df1 中的所有客户
result = pd.merge(df1, df2, on='customer_id', how='left')

# 或者使用内连接,只保留两个数据集中都存在的客户
# result = pd.merge(df1, df2, on='customer_id', how='inner')

print(result.head()) # 查看合并后的前几行数据

解释:

  • how='left' 确保 df1 中的所有客户信息都被保留,即使在 df2 中没有匹配的客户 ID。
  • 如果希望只分析两个数据集中都存在的客户,可以使用 how='inner'。

关于 Down Sampling 和 Up Sampling:

在您的问题中提到了 Down Sampling 和 Up Sampling。这通常用于解决类别不平衡问题,特别是在分类任务中。但是,在合并数据集的场景下,除非您有明确的理由需要调整样本比例,否则不建议轻易使用 Down Sampling 或 Up Sampling。

总结:

本教程介绍了如何使用 pd.concat() 和 pd.merge() 函数合并不同大小的 Pandas DataFrame。pd.concat() 适用于简单堆叠数据集,而 pd.merge() 适用于基于共享列进行连接。在实际应用中,需要根据数据的特点和分析目标选择合适的合并方法。对于银行信用卡案例,使用 pd.merge() 基于客户 ID 进行合并是更合理的选择。 记住,数据预处理是数据分析的重要步骤,选择正确的合并方法可以提高分析结果的准确性和可靠性。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

683

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

323

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

348

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1096

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

358

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

697

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

577

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

418

2024.04.29

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

1

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号