0

0

PySpark DataFrame中基于前一个非空值顺序填充缺失数据

聖光之護

聖光之護

发布时间:2025-09-06 12:11:03

|

556人浏览过

|

来源于php中文网

原创

PySpark DataFrame中基于前一个非空值顺序填充缺失数据

本教程详细介绍了如何在PySpark DataFrame中,利用窗口函数高效地实现基于前一个非空值的顺序填充(Forward Fill)缺失数据。针对具有递增 row_id 和稀疏 group_id 的场景,我们将演示如何通过 Window.orderBy 结合 F.last(ignorenulls=True) 来处理大规模数据集中的缺失值,确保数据完整性和逻辑一致性。

场景描述与问题分析

在数据处理过程中,我们经常会遇到需要根据序列中前一个有效值来填充后续缺失值的情况,这被称为“顺序填充”或“前向填充”(forward fill)。例如,在一个pyspark dataframe中,如果存在一个 row_id 字段表示数据的顺序,以及一个 group_id 字段,其中 group_id 仅在每个组的起始行有值,而后续行则为 null,直到下一个 group_id 出现。我们的目标是将这些 null 值填充为其所属组的第一个有效 group_id。

考虑以下数据结构:

row_id, group_id
1,      1
2,      null
3,      null
4,      null
5,      5
6,      null
7,      null
8,      8
...

期望的填充结果是:

row_id, group_id
1,      1
2,      1
3,      1
4,      1
5,      5
6,      5
7,      5
8,      8
...

这种场景在处理日志数据、时间序列数据或需要按逻辑分组填充的业务数据时非常常见。

解决方案:利用PySpark窗口函数实现顺序填充

PySpark的窗口函数(Window Functions)为处理此类序列依赖型问题提供了强大且高效的工具。通过定义一个合适的窗口,我们可以访问当前行之前(或之后)的数据,并应用聚合函数

核心思路是:

喵记多
喵记多

喵记多 - 自带助理的 AI 笔记

下载
  1. 定义窗口: 创建一个基于 row_id 排序的窗口。
  2. 应用聚合函数: 在这个窗口内,使用 last 函数并设置 ignorenulls=True 来获取当前行之前(包括当前行)的最后一个非空 group_id。

下面是具体的实现代码:

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.window import Window

# 1. 创建SparkSession
spark = SparkSession.builder.appName("SequentialFillExample").getOrCreate()

# 2. 准备示例数据
data = [
    (1, 1), (2, None), (3, None), (4, None),
    (5, 5), (6, None), (7, None),
    (8, 8), (9, None), (10, None), (11, None), (12, None)
]
columns = ["row_id", "group_id"]
df = spark.createDataFrame(data, columns)

print("原始DataFrame:")
df.show()

# 3. 定义窗口规范
# Window.orderBy("row_id") 确保数据按row_id升序处理
# rowsBetween(Window.unboundedPreceding, 0) 定义了从分区开始到当前行(包含当前行)的窗口范围
windowSpec = Window.orderBy("row_id").rowsBetween(Window.unboundedPreceding, 0)

# 4. 应用窗口函数进行缺失值填充
# F.last("group_id", ignorenulls=True) 获取窗口内最后一个非空值
filled_df = df.withColumn(
    "group_id",
    F.last("group_id", ignorenulls=True).over(windowSpec)
)

print("填充后的DataFrame:")
filled_df.show()

# 5. 停止SparkSession
spark.stop()

代码解释:

  • SparkSession: Spark应用程序的入口点。
  • data 和 columns: 用于创建示例DataFrame,模拟实际数据结构。
  • Window.orderBy("row_id"): 这是定义窗口的关键部分,它指定了窗口内数据行的排序方式。对于顺序填充,必须按照 row_id(或任何表示序列的列)进行排序,以确保 last 函数能够正确地找到前一个有效值。
  • rowsBetween(Window.unboundedPreceding, 0): 这定义了窗口的边界。
    • Window.unboundedPreceding 表示窗口从当前分区的第一行开始。
    • 0 表示窗口的结束点是当前行(currentRow 的别名)。
    • 结合起来,这个窗口包含了从分区开始到当前行的所有数据。
  • F.last("group_id", ignorenulls=True).over(windowSpec): 这是应用窗口函数的核心。
    • F.last("group_id", ignorenulls=True): 这个聚合函数会返回指定列 group_id 在当前窗口中的最后一个值。ignorenulls=True 参数至关重要,它指示 last 函数在查找最后一个值时忽略 null 值,从而确保我们总是能找到最近的非空值。
    • .over(windowSpec): 将 last 函数应用于我们之前定义的 windowSpec 窗口。

注意事项与性能考量

  1. row_id 的重要性: 确保 row_id 列是唯一且递增的,它决定了填充的顺序。如果 row_id 不唯一或顺序不正确,填充结果将不符合预期。
  2. 窗口范围: rowsBetween(Window.unboundedPreceding, 0) 对于前向填充非常有效。如果需要其他类型的填充(例如后向填充或在特定组内填充),则需要相应调整窗口定义。
  3. ignorenulls=True: 这是实现“基于前一个非空值填充”的关键。如果省略此参数或设置为 False,last 函数可能会返回 null,导致填充失败。
  4. 大规模数据集性能: 窗口函数在PySpark中经过高度优化,能够高效处理大规模数据集(百万甚至数十亿行)。然而,窗口操作通常涉及数据的重分区和排序,这可能会消耗较多的计算资源。对于非常大的数据集,如果可能,可以考虑先对数据进行分区,以优化窗口操作的性能。
  5. 替代方案对比:
    • fillna(): df.fillna(value) 只能用一个固定值或字典中的值填充所有 null,无法实现基于序列的动态填充。
    • UDF (User Defined Function): 虽然可以使用UDF实现复杂的填充逻辑,但UDF通常比内置函数和窗口函数效率低,尤其是在大规模数据上,不推荐用于此类场景。

总结

通过PySpark的窗口函数,特别是结合 Window.orderBy 和 F.last(ignorenulls=True),我们可以优雅且高效地解决DataFrame中基于前一个非空值的顺序填充问题。这种方法不仅代码简洁,而且在处理大规模数据集时表现出良好的性能和可扩展性,是数据预处理中一项非常实用的技术。理解并熟练运用窗口函数,将大大提升PySpark数据处理的能力。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

231

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

436

2024.03.01

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

534

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

17

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

14

2026.01.06

function是什么
function是什么

function是函数的意思,是一段具有特定功能的可重复使用的代码块,是程序的基本组成单元之一,可以接受输入参数,执行特定的操作,并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容,供大家免费下载体验。

476

2023.08.04

js函数function用法
js函数function用法

js函数function用法有:1、声明函数;2、调用函数;3、函数参数;4、函数返回值;5、匿名函数;6、函数作为参数;7、函数作用域;8、递归函数。本专题提供js函数function用法的相关文章内容,大家可以免费阅读。

163

2023.10.07

常用的数据库软件
常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

970

2023.11.02

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.2万人学习

Excel 教程
Excel 教程

共162课时 | 11.9万人学习

PHP基础入门课程
PHP基础入门课程

共33课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号