PySpark：日期列与字典匹配问题解决方案

心靈之曲

发布时间：2025-10-17 16:51:01

686人浏览过

来源于php中文网

原创

pyspark：日期列与字典匹配问题解决方案

本文旨在解决在PySpark中将日期列与字典进行匹配时遇到的问题。通过`create_map`函数创建映射表达式，并结合`withColumn`和`filter`函数，实现高效的日期匹配。本文提供详细的代码示例和解释，帮助读者理解并解决类似问题，并提供了一些注意事项。

在PySpark中，经常需要根据日期进行数据处理，例如判断某一天是否为节假日。一种常见的场景是将DataFrame中的日期列与包含节假日信息的字典进行匹配，从而添加新的列来标识是否为节假日。本文将介绍如何使用create_map函数实现这一功能，并解决可能遇到的问题。

问题描述

假设我们有一个包含日期信息的Spark DataFrame，以及一个包含节假日信息的Python字典。我们的目标是创建一个新的DataFrame列，该列指示DataFrame中的日期是否在节假日字典中。

DataFrame的Schema如下：

root
 |-- id: long (nullable = false)
 |-- date: timestamp (nullable = false)
 |-- year: integer (nullable = false)
 |-- month: integer (nullable = false)
 |-- day: string (nullable = false)
 |-- day_of_year: string (nullable = false)
 |-- hour: string (nullable = false)
 |-- minute: string (nullable = false)
 |-- is_weekend: boolean (nullable = false)
 |-- only_date: date (nullable = false)

节假日字典（例如，从holidays包获取）如下：

Fotor AI Face Generator

Fotor 平台的在线 AI 头像生成器

下载

{datetime.date(2018, 12, 5): 'Day of Mourning for President George H.W. Bush', datetime.date(2018, 1, 1): "New Year's Day", datetime.date(2018, 1, 15): 'Martin Luther King Jr. Day', datetime.date(2018, 2, 19): "Washington's Birthday", datetime.date(2018, 3, 30): 'Good Friday', datetime.date(2018, 5, 28): 'Memorial Day', datetime.date(2018, 7, 4): 'Independence Day', datetime.date(2018, 9, 3): 'Labor Day', datetime.date(2018, 11, 22): 'Thanksgiving Day', datetime.date(2018, 12, 25): 'Christmas Day'}

解决方案

关键在于正确地将DataFrame中的日期列传递给create_map函数生成的映射表达式。在create_map中，我们需要使用col("only_date")来引用DataFrame中的only_date列。

以下是完整的代码示例：

from pyspark.sql.functions import col, create_map, lit
from itertools import chain
import holidays
from datetime import datetime
from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("DateMatching").getOrCreate()

# 创建示例 DataFrame (为了示例，这里手动创建)
data = [(1, datetime(2018, 1, 1)), (2, datetime(2018, 1, 15)), (3, datetime(2018, 1, 20))]
df = spark.createDataFrame(data, ["id", "date"]).withColumn("only_date", col("date").cast("date"))

# 获取节假日字典
nyse_holidays = holidays.financial.ny_stock_exchange.NewYorkStockExchange(years=2018)

# 创建映射表达式
mapping_expr = create_map([lit(x) for x in chain(*nyse_holidays.items())])

# 添加新列，指示是否为节假日
df = df.withColumn("is_holiday", mapping_expr[col("only_date")])

# 显示结果
df.show()

# 停止 SparkSession
spark.stop()

代码解释：

导入必要的库： 导入pyspark.sql.functions中的col, create_map, lit，以及itertools中的chain。
创建节假日字典： 使用holidays包创建包含2018年纽约证券交易所节假日的字典。
创建映射表达式： 使用create_map函数将节假日字典转换为PySpark可以使用的映射表达式。chain(*nyse_holidays.items())将字典的键值对展开为扁平的列表，lit(x)将每个键值对转换为字面量。
添加新列： 使用withColumn函数添加名为is_holiday的新列。mapping_expr[col("only_date")]表示根据only_date列的值在映射表达式中查找对应的值。如果only_date列的值在节假日字典中存在，则is_holiday列的值为对应的节假日名称；否则，为null。
显示结果： 使用show函数显示包含新列的DataFrame。

注意事项

日期格式： 确保DataFrame中的日期列和节假日字典中的日期格式一致。如果格式不一致，需要进行转换。
空值处理： 如果DataFrame中的日期列包含空值，需要进行处理，例如使用fillna函数填充空值。
性能优化： 对于大型DataFrame，可以考虑使用广播变量来提高性能。

总结

本文介绍了如何使用create_map函数在PySpark中将日期列与字典进行匹配。通过正确地引用DataFrame中的日期列，可以轻松地实现日期匹配功能。在实际应用中，需要注意日期格式、空值处理和性能优化等方面的问题。希望本文能够帮助读者解决类似问题，并提高PySpark数据处理的效率。

Python对象生命周期管理_创建与销毁解析【教程】

Python并发程序日志关联_排错说明【指导】

Python表达式求值规则_运算优先级说明【指导】

Python 字典列表按时间键高效配对生成映射字典

Python日志分级与管理_分析与追踪解析【教程】

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

724

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

628

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

744

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1236

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

702

2023.08.11