Pandas数据重塑：多列映射与DataFrame合并策略

心靈之曲

发布时间：2025-11-27 11:16:01

609人浏览过

来源于php中文网

原创

pandas数据重塑：多列映射与dataframe合并策略

本文详细介绍了在Pandas中如何将一个DataFrame的多个列经过特定转换后，映射到另一个DataFrame的统一列结构中，并最终进行垂直合并。通过实例演示了列重命名、数据类型转换以及列选择等预处理步骤，最终利用`pd.concat`实现不同结构DataFrame的有效整合，以满足复杂数据清洗与整合的需求。

在数据分析和处理中，我们经常会遇到需要整合来自不同数据源或不同结构的数据集。一个常见的场景是，我们有两个或多个DataFrame，它们包含部分相同的核心信息，但也有各自独特的列。为了将这些数据合并到一个统一的结构中，我们可能需要对其中一个或多个DataFrame进行列的重命名、数据转换甚至列的选择性丢弃，以使其与目标结构对齐。本教程将通过一个具体示例，详细阐述如何实现这种多列映射与DataFrame的合并。

1. 问题背景与数据结构

假设我们有两个DataFrame，df1和df2，它们都包含人物信息，但df2额外包含一个nick_name列，并且我们希望将df2中的nick_name作为合并后数据行的name，同时对sex列进行缩写，并将这些转换后的信息添加到df1的下方。

初始DataFrame示例：

首先，我们创建这两个DataFrame：

import pandas as pd
import numpy as np

# 第一个DataFrame (df1)
data1 = {
    'name': ['smith row', 'sam smith', 'susan storm'],
    'age': [26, 30, 25],
    'sex': ['male', 'male', 'female']
}
df1 = pd.DataFrame(data1)

print("df1:")
print(df1)
# Output:
#          name  age     sex
# 0   smith row   26    male
# 1   sam smith   30    male
# 2  susan storm  25  female

# 第二个DataFrame (df2)
data2 = {
    'name': ['smith row', 'sam smith', 'susan storm'],
    'age': [26, 30, 25],
    'sex': ['male', 'male', 'female'],
    'nick_name': ['smity', 'sammy', 'suanny']
}
df2 = pd.DataFrame(data2)

print("\ndf2:")
print(df2)
# Output:
#          name  age     sex nick_name
# 0   smith row   26    male     smity
# 1   sam smith   30    male     sammy
# 2  susan storm  25  female    suanny

我们的目标是生成一个包含df1所有行，以及由df2转换而来的新行（其中name来自nick_name，sex是原sex的首字母，age则为空值）的DataFrame。

2. 数据预处理与列映射

为了实现上述目标，我们需要对df2进行一系列的预处理操作，使其结构和内容与我们期望的合并结果相匹配。

2.1 映射 nick_name 到 name

首先，我们将df2中的nick_name列的值赋给name列。这样，在后续合并时，这些昵称将作为新的名字出现。

Mureka

Mureka是昆仑万维最新推出的一款AI音乐创作工具，输入歌词即可生成完整专属歌曲。

下载

# 将df2的'nick_name'列值赋给'name'列
df2['name'] = df2['nick_name']

print("\ndf2 after mapping nick_name to name:")
print(df2)
# Output:
#          name  age     sex nick_name
# 0       smity   26    male     smity
# 1       sammy   30    male     sammy
# 2      suanny   25  female    suanny

2.2 转换 sex 列为首字母

接下来，我们需要将df2的sex列中的完整性别描述（如'male', 'female'）转换为其首字母（如'm', 'f'）。这可以通过字符串切片操作实现。

# 将df2的'sex'列转换为首字母
df2['sex'] = df2['sex'].str[0]

print("\ndf2 after transforming sex column:")
print(df2)
# Output:
#          name  age sex nick_name
# 0       smity   26   m     smity
# 1       sammy   30   m     sammy
# 2      suanny   25   f    suanny

2.3 丢弃不必要的列

根据目标输出，我们不需要df2中的原始age列和nick_name列（因为nick_name已经映射到name）。因此，我们可以将它们从df2中删除。

# 丢弃df2中不再需要的列
df2 = df2.drop(columns=['age', 'nick_name'])

print("\ndf2 after dropping unnecessary columns:")
print(df2)
# Output:
#          name sex
# 0       smity   m
# 1       sammy   m
# 2      suanny   f

此时，df2的结构已经接近我们期望的合并形式。它现在只有name和sex两列，与df1的目标结构（name, age, sex）相比，缺少age列，这将在合并时自动处理为NaN。

3. 合并DataFrame

现在，两个DataFrame都已准备就绪，我们可以使用pd.concat()函数将它们垂直合并。pd.concat()是Pandas中用于沿特定轴（默认是行轴）连接Series或DataFrame对象的强大工具。

# 合并df1和预处理后的df2
# ignore_index=True 会重置合并后的索引
df_combined = pd.concat([df1, df2], ignore_index=True)

print("\nCombined DataFrame:")
print(df_combined)
# Output:
#          name   age     sex
# 0   smith row  26.0    male
# 1   sam smith  30.0    male
# 2  susan storm  25.0  female
# 3       smity   NaN       m
# 4       sammy   NaN       m
# 5      suanny   NaN       f

从结果可以看出，df1的所有行都被保留，df2转换后的行被添加在其下方。由于转换后的df2不包含age列，在合并时，这些新行的age列自动填充为NaN（Not a Number），并且为了兼容NaN，age列的数据类型也会自动转换为浮点数。

4. 注意事项与最佳实践

列名一致性：pd.concat()在垂直合并时，会根据列名进行对齐。如果一个DataFrame中存在而另一个DataFrame中不存在的列，则会在缺失的DataFrame中填充NaN。这是本例中age列在df2转换行中显示NaN的原因。
数据类型兼容性：在进行列映射和转换时，请确保最终的数据类型是兼容的。例如，将字符串转换为数字或反之，可能会导致错误或意外行为。本例中，sex列从完整字符串变为单字符，这在字符串类型中是兼容的。
ignore_index=True：使用ignore_index=True参数可以确保合并后的DataFrame拥有一个连续的、从0开始的整数索引，避免了原始DataFrame索引的重复或冲突。
动态映射：虽然本例中我们是直接通过列赋值进行映射，但在更复杂的“动态”场景中，例如根据字典进行批量重命名、或根据条件应用不同的转换规则，可以结合使用df.rename()、df.apply()、df.map()或自定义函数来实现更灵活的映射逻辑。
内存效率：对于非常大的DataFrame，频繁地创建中间DataFrame副本（如df2 = df2.drop(...)）可能会有性能开销。在某些情况下，可以考虑链式操作或使用assign()方法来提高效率。

5. 总结

本教程演示了如何通过一系列有策略的列操作（包括列赋值、数据转换和列删除）来重塑一个DataFrame，使其能够与另一个DataFrame的结构对齐，并最终通过pd.concat()进行垂直合并。这种方法在处理异构数据源，需要将特定信息映射到统一结构，并进行整合时非常有用。掌握这些Pandas技巧，能够大大提高数据清洗和预处理的效率和灵活性。

Flask模板中正确使用url_for生成路由链接的教程

PythonFlask系统学习路线第266讲_核心原理与实战案例详解【技巧】

Python FastAPI依赖注入_Python FastAPI依赖注入系统如何简化代码

python如何处理掉12306的验证码

Python爬虫实现APP接口抓取与反调试对抗的关键技术【技巧】

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

301

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

222

2025.10.31

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

256

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

208

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1465

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

619

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

550

2024.03.22

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板