合并具有不同字段的数组结构列：Spark SQL高效方案-Python教程-PHP中文网

合并具有不同字段的数组结构列：Spark SQL高效方案

碧海醫心

发布： 2025-11-18 12:13:01

原创

931人浏览过

合并具有不同字段的数组结构列：spark sql高效方案

本文介绍了如何使用Spark SQL高效地合并DataFrame中两个具有不同字段的数组结构列。通过transform和filter函数，避免了使用UDF带来的性能瓶颈，并提供了一个清晰的代码示例，展示了如何根据共同的ID字段将两个数组结构中的字段合并到一个新的数组结构中。

在Spark中处理复杂数据结构时，经常需要合并来自不同来源的数据。当数据以数组结构的形式存在，且每个数组结构包含不同的字段时，合并操作会变得更加复杂。本文将介绍一种高效的方法，使用Spark SQL内置函数transform和filter来合并两个具有不同字段的数组结构列，避免使用用户自定义函数（UDF）可能带来的性能问题。

问题描述

假设我们有一个DataFrame，其中包含两个数组结构列：materials和elastic。materials包含id和percentage字段，而elastic包含id和name字段。我们的目标是创建一个新的数组结构列merged_materials，其中包含id、percentage和name字段，且materials.id与elastic.id相等时，才将两个结构中的数据合并。

解决方案

我们可以使用transform函数遍历materials数组，然后使用filter函数在elastic数组中查找具有相同id的元素。找到匹配的元素后，使用named_struct函数创建一个新的结构，并将id、percentage和name字段合并到该结构中。

以下是具体的代码示例：

即构数智人

即构数智人是由即构科技推出的AI虚拟数字人视频创作平台，支持数字人形象定制、短视频创作、数字人直播等。

查看详情

from pyspark.sql import functions as F

# 示例数据
testdata="""
  {"product_id": 1, "tenant_id": 1, "materials": [{"id": 1, "percentage": 0.1}, {"id": 3, "percentage": 0.3}, {"id": 2, "percentage": 0.2}], "elastic": [{"id": 1, "name": "one"},{"id":2, "name": "two"}] }
"""
df = spark.read.json(spark.sparkContext.parallelize([testdata]))

# 创建新的合并后的数组结构列
df = df.withColumn(
    "merged_materials",
    F.expr(
        """
        transform(
            materials,
            m -> named_struct(
                'id', m.id,
                'percentage', m.percentage,
                'name', filter(elastic, e -> e.id == m.id)[0].name
            )
        )
        """
    )
)

df.show(vertical=True, truncate=False)

登录后复制

代码解释：

transform(materials, m -> ...): transform函数遍历materials数组，并将每个元素作为m传递给lambda表达式。
named_struct(...): named_struct函数创建一个新的结构体，其中包含指定的字段和值。
filter(elastic, e -> e.id == m.id)[0].name: filter函数在elastic数组中查找id与当前materials元素id相等的元素。[0]用于获取第一个匹配的元素，.name用于获取该元素的name字段。如果没有找到匹配项，则返回 null。

结果

运行上述代码后，我们将得到一个新的DataFrame，其中包含merged_materials列。该列包含合并后的数组结构，其中每个元素包含id、percentage和name字段。

输出结果如下：

-RECORD 0----------------------------------------------------------
 elastic          | [{1, one}, {2, two}]                           
 materials        | [{1, 0.1}, {3, 0.3}, {2, 0.2}]                 
 product_id       | 1                                              
 tenant_id        | 1                                              
 merged_materials | [{1, 0.1, one}, {3, 0.3, null}, {2, 0.2, two}]

登录后复制