Pandas DataFrame列扩展与数据平移技巧

霞舞

发布时间：2025-11-28 13:43:13

421人浏览过

来源于php中文网

原创

pandas dataframe列扩展与数据平移技巧

本教程详细介绍了如何使用Pandas在DataFrame中扩展行数，并同时将指定列的数据向下平移特定位置，自动填充新增的空缺值。通过结合`reindex`和`shift`这两个强大的Pandas函数，即使原始DataFrame的行数较少，也能高效地实现列数据的平移和DataFrame结构的扩展，从而满足复杂的数据重塑需求。文章将提供清晰的示例代码和详细的步骤解释。

引言：DataFrame行扩展与列数据平移的需求

在数据分析和预处理过程中，我们经常会遇到需要对DataFrame进行结构性调整的场景。其中一个常见的需求是，在保持DataFrame原有列数据的基础上，扩展其行数，并将某一特定列的数据整体向下平移（或向上平移）指定的行数，同时在新增的空缺位置填充缺失值（NaN）。这种操作对于时间序列分析、数据对齐或创建滞后/超前特征等任务尤为重要。

例如，假设我们有一个包含两列（'A'和'B'）的DataFrame，我们希望将'B'列的数据向下平移两行，同时扩展DataFrame的整体行数以容纳平移后的数据，并在原有的'B'列前两行以及扩展出的新行中填充缺失值。

原始数据:                               预期结果:
     A    B                             A    B
0    1    a                         0   1    NaN
1    2    b                         1   2    NaN
2    3    c                         2   3     a
3    4    d                         3   4     b
4    5    e                         4   5     c
                                    5  NaN    d
                                    6  NaN    e

准备工作：创建示例DataFrame

首先，我们创建一个示例DataFrame，它将作为我们操作的基础。

import pandas as pd
import numpy as np # 导入numpy以便在需要时处理NaN

# 创建一个示例DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': list('abcde')})

print("原始DataFrame:")
print(df)

输出:

原始DataFrame:
   A  B
0  1  a
1  2  b
2  3  c
3  4  d
4  5  e

核心解决方案：使用 reindex 和 assign 结合 shift

Pandas提供了reindex和shift这两个功能强大的方法，可以优雅地解决上述问题。

reindex() 扩展DataFrame的索引：reindex()方法允许我们根据新的索引重新排列DataFrame。如果新索引包含当前DataFrame中不存在的标签，Pandas会为这些新行或新列填充缺失值（默认为NaN）。在这里，我们需要扩展DataFrame的行数，因此我们将创建一个新的RangeIndex，其长度是原始DataFrame的行数加上需要平移的步数n。

医真AI+开放平台
医真AI+ 医学AI开放平台

下载
shift() 平移列数据：shift()方法用于将序列（Series）或DataFrame的行（或列）数据向上或向下移动指定的步数。当数据向下移动时，顶部会填充缺失值；当数据向上移动时，底部会填充缺失值。
assign() 创建或修改列：assign()方法允许我们通过函数式编程的方式添加或修改DataFrame的列，它会返回一个新的DataFrame，而不会修改原始DataFrame。这使得操作链式化更加方便。

实现步骤

我们将需要平移的步数定义为n。

# 定义平移的步数
n = 2

# 1. 扩展DataFrame的索引
# 创建一个新的RangeIndex，其长度是原始DataFrame行数加上平移步数n
new_index = pd.RangeIndex(len(df) + n)

# 使用reindex方法根据新索引扩展DataFrame。
# 此时，DataFrame的行数会增加，新增行的所有列都会填充NaN。
# 但我们只希望B列平移，A列保持原位。
# 因此，更优的做法是先reindex整个DataFrame，然后对B列进行shift。
# 或者，先对B列进行shift，然后将结果赋给reindexed的DataFrame。
# 这里的策略是先reindex，然后使用assign来修改B列。

# 2. 结合reindex和assign/shift
# reindex会扩展整个DataFrame，导致A列也出现NaN。
# 然后使用assign来重新计算B列的值。
# 在assign内部，lambda函数会接收reindexed后的DataFrame，
# 然后对其中的B列进行shift操作。
out = df.reindex(new_index).assign(B=lambda x: df['B'].shift(n))

print("\n扩展并平移后的DataFrame:")
print(out)

输出:

扩展并平移后的DataFrame:
     A      B
0  1.0    NaN
1  2.0    NaN
2  3.0      a
3  4.0      b
4  5.0      c
5  NaN      d
6  NaN      e

代码解析

n = 2: 定义了需要向下平移的行数。
df.reindex(pd.RangeIndex(len(df) + n)): 这一步是关键。它首先基于原始DataFrame df 创建一个新的DataFrame，其行索引是 0 到 len(df) + n - 1 的连续整数。
- len(df) 获取原始DataFrame的行数（5）。
- len(df) + n 得到新的总行数（5 + 2 = 7）。
- pd.RangeIndex(...) 创建一个从0开始到指定长度的整数索引。
- reindex() 会将原始DataFrame的数据映射到新的索引上。对于原始索引中存在的数据，它会保留；对于新索引中存在但原始索引中不存在的行，它会添加这些行并填充NaN。
- 此时，A 列也会因为 reindex 而在新增的行（索引5和6）中出现NaN。
.assign(B=lambda x: df['B'].shift(n)): 这一步修改了 reindex 后的DataFrame的 B 列。
- assign() 方法接收一个关键字参数 B，其值是一个 lambda 函数。
- lambda x: ... 中的 x 代表 reindex 后的DataFrame。
- df['B'].shift(n)：这里重要的是，shift() 操作是作用在原始DataFrame的 'B' 列上，而不是 reindex 后的 x['B']。这样做可以确保只有原始的 'B' 列数据被平移，并且其长度与原始 df 的 'B' 列相同（只是索引不同）。shift(n) 会将 'a' 移到索引2，'b' 移到索引3，依此类推，并在前n个位置填充 NaN。
- 最终，assign 会将这个平移后的Series赋给新DataFrame的 B 列。由于 shift 后的Series长度与原始DataFrame相同，Pandas在将其赋给扩展后的DataFrame时，会自动将超出原始长度的部分（索引5和6）填充为NaN。

注意事项与扩展

n 的灵活性： 变量 n 可以根据您的需求进行调整，以实现不同的平移步数。
索引类型： 本教程的解决方案假设原始DataFrame具有 RangeIndex（即默认的整数索引）。如果您的DataFrame具有自定义索引，reindex 的行为可能需要更精细的控制，例如，您可能需要手动构建一个包含原始索引和新增索引的合并索引。
其他列的处理： 在上述示例中，'A' 列在扩展的行中被填充为 NaN。如果 'A' 列也需要保持其原始值或以其他方式处理，您可能需要更复杂的逻辑，例如，先复制 'A' 列，然后只对 'B' 列进行 reindex 和 shift。
向上平移： 如果需要向上平移，可以将 n 设置为负数，即 df['B'].shift(-n)。此时，reindex 的新索引长度可能需要调整。

总结

通过巧妙地结合Pandas的 reindex() 和 assign() 方法以及 Series 的 shift() 功能，我们可以高效且灵活地实现DataFrame的行扩展和指定列的数据平移操作。这种方法不仅代码简洁，而且易于理解和维护，是处理类似数据重塑任务的强大工具。掌握这些技巧将大大提升您在Pandas中进行数据处理的能力。

Python 中实现“每进程分配 N 个 CPU 核心”的多进程调度策略

如何在 Python 中实现每个进程绑定多个 CPU 核心的多进程并行

标题：Pandas 实现工时按工作日拆分与智能排期（每日上限7小时，跳过周末）

Pandas 多列分组比对行数据并标记不一致性

Pandas 行间多列一致性校验：识别重复键下的值冲突