使用 PySpark 从 JSON 对象中选择并透视数据

霞舞

发布时间：2025-08-19 15:22:01

179人浏览过

来源于php中文网

原创

使用 pyspark 从 json 对象中选择并透视数据

本文档介绍了如何使用 PySpark 从包含属性和值的 JSON 对象中提取特定列，并将其透视为所需格式。通过创建 DataFrame 和使用 Spark SQL，我们可以灵活地选择和转换数据，最终得到以指定属性名作为列名的结果。本文提供详细步骤和示例代码，帮助你轻松完成数据提取和转换任务。

使用 PySpark 处理 JSON 数据并进行透视

在数据处理中，经常需要从 JSON 数据中提取特定字段，并将其转换为更易于分析的格式。当 JSON 数据包含具有属性和值的对象数组时，例如 Oracle REST API 的响应，我们可以使用 PySpark 来选择所需的列，并将其透视为以属性名作为列名的形式。

以下是如何使用 PySpark 实现此目标的步骤：

1. 创建 DataFrame

首先，你需要使用 JSON 数据创建一个 DataFrame。假设你已经将 JSON 数据存储在变量 json_data 中，可以使用以下代码创建 DataFrame：

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("JSONPivot").getOrCreate()

df = spark.read.json(spark.sparkContext.parallelize([json_data]))

# 示例 JSON 数据 (替换为你实际的数据)
json_data = """
[
    {
        "attributeId": 300000000227671,
        "attributeName": "BUSINESS_UNIT",
        "attributeType": "Number",
        "attributeValue": "300000207138371",
        "timeBuildingBlockId": 300000300319699,
        "timeBuildingBlockVersion": 1
    },
    {
        "attributeId": 300000000227689,
        "attributeName": "LOG_ID",
        "attributeType": "Number",
        "attributeValue": "300000001228038",
        "timeBuildingBlockId": 300000300319699,
        "timeBuildingBlockVersion": 1
    }
]
"""

df = spark.read.json(spark.sparkContext.parallelize([json_data]))

df.printSchema()
df.show()

这段代码首先创建了一个 SparkSession，这是与 Spark 集群交互的入口点。然后，它使用 spark.read.json() 方法从 json_data 读取 JSON 数据，并将其转换为 DataFrame。spark.sparkContext.parallelize([json_data]) 用于将 JSON 数据转换为 RDD，然后 spark.read.json() 可以从 RDD 读取数据。 df.printSchema() 打印 DataFrame 的结构，df.show() 显示 DataFrame 的内容。

2. 创建临时视图

为了能够使用 Spark SQL 查询 DataFrame，需要创建一个临时视图：

df.createOrReplaceTempView("myTable")

这将创建一个名为 "myTable" 的临时视图，你可以使用 Spark SQL 查询它。

Text Mark

处理文本内容的AI助手

下载

3. 使用 Spark SQL 进行透视

现在，可以使用 Spark SQL 查询临时视图，以提取所需的列并进行透视。以下是一个示例查询，用于提取 "LOG_ID" 和 "BUSINESS_UNIT" 的 attributeValue：

result = spark.sql("""
    SELECT
        MAX(CASE WHEN attributeName = 'LOG_ID' THEN attributeValue END) AS LOG_ID,
        MAX(CASE WHEN attributeName = 'BUSINESS_UNIT' THEN attributeValue END) AS BUSINESS_UNIT
    FROM myTable
""")

result.show()

这个 SQL 查询使用 CASE WHEN 语句来根据 attributeName 的值选择相应的 attributeValue。 MAX() 函数用于处理可能存在多个具有相同 attributeName 的情况，并确保每个属性只有一个值。AS 关键字用于为结果列指定别名。

完整代码示例

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("JSONPivot").getOrCreate()

# 示例 JSON 数据 (替换为你实际的数据)
json_data = """
[
    {
        "attributeId": 300000000227671,
        "attributeName": "BUSINESS_UNIT",
        "attributeType": "Number",
        "attributeValue": "300000207138371",
        "timeBuildingBlockId": 300000300319699,
        "timeBuildingBlockVersion": 1
    },
    {
        "attributeId": 300000000227689,
        "attributeName": "LOG_ID",
        "attributeType": "Number",
        "attributeValue": "300000001228038",
        "timeBuildingBlockId": 300000300319699,
        "timeBuildingBlockVersion": 1
    }
]
"""

# 创建 DataFrame
df = spark.read.json(spark.sparkContext.parallelize([json_data]))

# 创建临时视图
df.createOrReplaceTempView("myTable")

# 使用 Spark SQL 进行透视
result = spark.sql("""
    SELECT
        MAX(CASE WHEN attributeName = 'LOG_ID' THEN attributeValue END) AS LOG_ID,
        MAX(CASE WHEN attributeName = 'BUSINESS_UNIT' THEN attributeValue END) AS BUSINESS_UNIT
    FROM myTable
""")

# 显示结果
result.show()

# 停止 SparkSession
spark.stop()

注意事项

确保你的 JSON 数据格式正确，并且包含所需的 attributeName 和 attributeValue 字段。
根据你的实际需求修改 SQL 查询，以提取所需的列和进行透视。
如果 JSON 数据非常大，可以考虑使用分区来提高查询性能。
在实际应用中，可能需要处理缺失值或错误数据。可以使用 fillna() 或 filter() 方法来处理这些情况。
记得在完成操作后停止 SparkSession，释放资源。

总结

通过使用 PySpark 创建 DataFrame 和使用 Spark SQL，我们可以轻松地从 JSON 对象中选择和透视数据。这种方法非常灵活，可以根据你的实际需求进行定制。希望本文档能够帮助你解决数据提取和转换问题。

在Python中利用日期范围高效查询Oracle数据库数据的实践指南

PonyORM与Oracle CHAR类型处理：理解、挑战与解决方案

Python oracledb：在Oracle数据库中高效查询日期范围数据

python oracle数据库如何安装？

python-oracledb 游标对象与数据库会话管理深度解析

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

678

2023.10.12

SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

320

2023.10.27

SQL中months_between使用方法

在SQL中，MONTHS_BETWEEN 是一个常见的函数，用于计算两个日期之间的月份差。想了解更多SQL的相关内容，可以阅读本专题下面的文章。

346

2024.02.23

SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容，可以阅读本专题下面的文章。

1095

2024.03.06

sql procedure语法错误解决方法

sql procedure语法错误解决办法：1、仔细检查错误消息；2、检查语法规则；3、检查括号和引号；4、检查变量和参数；5、检查关键字和函数；6、逐步调试；7、参考文档和示例。想了解更多语法错误的相关内容，可以阅读本专题下面的文章。

357

2024.03.06

oracle数据库运行sql方法

运行sql步骤包括：打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果，错误消息或退出sql plus。想了解更多oracle数据库的相关内容，可以阅读本专题下面的文章。

675

2024.04.07

sql中where的含义

sql中where子句用于从表中过滤数据，它基于指定条件选择特定的行。想了解更多where的相关内容，可以阅读本专题下面的文章。

572

2024.04.29

sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name；该语句将永久删除指定表的表和数据。想了解更多sql的相关内容，可以阅读本专题下面的文章。

414

2024.04.29

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板