使用Pandas高效进行DataFrame多列映射与合并

聖光之護

发布时间：2025-11-23 12:14:18

783人浏览过

来源于php中文网

原创

使用pandas高效进行dataframe多列映射与合并

本文详细介绍了如何使用Pandas库将多个DataFrame的列数据进行转换、映射和合并，以实现复杂的数据重构需求。教程涵盖了列赋值、字符串操作、列删除以及DataFrame垂直拼接等核心操作，旨在帮助读者高效地整合不同结构的数据，并处理合并过程中可能出现的缺失值。

在数据分析和处理过程中，我们经常会遇到需要从不同来源或不同结构的DataFrame中提取、转换并合并数据的情况。例如，一个DataFrame可能包含主信息，而另一个DataFrame则包含补充信息，我们需要将这些补充信息映射到主信息的特定列，并最终整合到一起。本教程将通过一个具体的示例，详细讲解如何利用Pandas库实现这种多列映射与DataFrame合并的操作。

1. 准备初始数据

首先，我们创建两个示例DataFrame，分别命名为 df1 和 df2，它们代表了我们即将操作的原始数据。

import pandas as pd
import numpy as np

# 第一个DataFrame
data1 = {
    'name': ['smith row', 'sam smith', 'susan storm'],
    'age': [26, 30, 25],
    'sex': ['male', 'male', 'female']
}
df1 = pd.DataFrame(data1)
print("df1 (原始数据):")
print(df1)
print("-" * 30)

# 第二个DataFrame，包含额外的'nick_name'列
data2 = {
    'name': ['smith row', 'sam smith', 'susan storm'],
    'age': [26, 30, 25],
    'sex': ['male', 'male', 'female'],
    'nick_name': ['smity', 'sammy', 'suanny']
}
df2 = pd.DataFrame(data2)
print("df2 (包含昵称的补充数据):")
print(df2)
print("-" * 30)

输出示例:

PaperAiBye

支持近30多种语言降ai降重，并且支持多种语言免费测句子的ai率，支持英文aigc报告等

下载

df1 (原始数据):
        name  age     sex
0  smith row   26    male
1  sam smith   30    male
2  susan storm  25  female
------------------------------
df2 (包含昵称的补充数据):
          name  age     sex nick_name
0    smith row   26    male     smity
1    sam smith   30    male     sammy
2  susan storm   25  female    suanny
------------------------------

我们的目标是将 df2 中的 nick_name 列作为新的 name 信息，同时将 sex 列简化为首字母，并最终与 df1 合并，形成一个统一的DataFrame。

2. 对第二个DataFrame进行数据转换与列映射

为了达到预期的合并效果，我们需要对 df2 进行一系列的转换操作。这些操作包括：

将 nick_name 列的值赋给 name 列。
将 sex 列的值转换为其首字母。
删除不再需要的 age 和 nick_name 列。

# 步骤1: 将'nick_name'列的值赋给'name'列
df2_transformed = df2.copy() # 创建副本以避免修改原始df2
df2_transformed['name'] = df2_transformed['nick_name']

# 步骤2: 将'sex'列的值转换为其首字母
# 使用.str[0]可以方便地提取字符串的第一个字符
df2_transformed['sex'] = df2_transformed['sex'].str[0]

# 步骤3: 删除不再需要的'age'和'nick_name'列
df2_transformed = df2_transformed.drop(columns=['age', 'nick_name'])

print("df2_transformed (转换后的数据):")
print(df2_transformed)
print("-" * 30)

输出示例:

df2_transformed (转换后的数据):
     name sex
0   smity   m
1   sammy   m
2  suanny   f
------------------------------

经过这些转换，df2_transformed 现在只包含 name 和 sex 列，并且数据格式符合我们合并的要求。

3. 合并DataFrame

现在，我们可以使用 pd.concat() 函数将 df1 和转换后的 df2_transformed 进行垂直合并。

# 使用pd.concat()进行垂直合并
# ignore_index=True 会重置合并后的索引，使其从0开始连续编号
final_df = pd.concat([df1, df2_transformed], ignore_index=True)

print("final_df (最终合并结果):")
print(final_df)

输出示例:

final_df (最终合并结果):
          name   age     sex
0    smith row  26.0    male
1    sam smith  30.0    male
2  susan storm  25.0  female
3        smity   NaN       m
4        sammy   NaN       m
5       suanny   NaN       f

4. 结果分析与注意事项

观察最终合并结果 final_df，我们可以看到：

df1 的所有行都被完整保留。
df2_transformed 的行被追加到了 df1 的下方。
由于 df2_transformed 在合并前已经移除了 age 列，因此在合并后的 final_df 中，对应 df2_transformed 来源的行在 age 列显示为 NaN（Not a Number），表示缺失值。这是 pd.concat() 处理列不匹配时的默认行为。
sex 列的数据类型在合并后可能会因为 male/female 和 m/f 的混合而变为 object 类型，这是符合预期的。

注意事项与最佳实践：

列名一致性： 在进行 pd.concat() 垂直合并时，如果两个DataFrame的列名不完全一致，Pandas会默认进行外连接（union），即保留所有唯一的列名，并在缺失的列位置填充 NaN。因此，在合并前确保目标列名一致是关键。
数据类型： 合并操作可能会导致列的数据类型发生变化，尤其是在存在 NaN 的情况下，整数列可能会被转换为浮点数类型。在合并后，如果需要，可能需要进行数据类型转换（例如，使用 df['age'].fillna(0).astype(int) 来填充 NaN 并转换为整数）。
缺失值处理： 合并后产生的 NaN 值通常需要进一步处理，例如使用 fillna() 填充默认值，或使用 dropna() 删除含有 NaN 的行。具体处理方法取决于业务需求。
ignore_index=True： 这个参数在垂直合并时非常有用，它会生成一个新的、连续的索引，避免了原始DataFrame索引重复或混乱的问题。
动态映射： 虽然本示例是硬编码的列操作，但在实际应用中，如果需要处理大量或结构相似的DataFrame，可以考虑编写函数或使用循环来动态执行列的映射、转换和删除操作，从而提高代码的复用性和灵活性。

总结

本教程详细演示了如何利用Pandas库对DataFrame进行多步操作，包括列的赋值、字符串处理、列的删除以及最终的DataFrame垂直合并。通过这些技术，我们可以有效地重构和整合不同来源的数据，以满足复杂的数据分析需求。理解这些核心操作及其对数据结构和数据类型的影响，是进行高效数据清洗和预处理的关键。

Python 如何让一个生成器在第一次迭代时做初始化

如何正确读取含逗号小数点的DSC文本数据并转换为浮点数进行绘图

如何正确捕获 MSVC cl.exe 编译器的错误输出

如何在 Spark 提交命令中智能分离 Spark 与 Hadoop 配置参数

如何在 DVC 中通过常量文件统一管理依赖与输出路径

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

303

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

222

2025.10.31

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

257

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

208

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1465

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

619

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

550

2024.03.22