如何用Spark SQL读取XML文件-XML/RSS教程-PHP中文网

如何用Spark SQL读取XML文件

煙雲

发布： 2025-12-18 09:51:08

原创

234人浏览过

Spark SQL需借助spark-xml库读取XML：按Spark版本选对应依赖，用format("xml")及rowTag等option解析为DataFrame，注册视图后支持SQL查询，属性需加@前缀，嵌套字段自动转StructType。

如何用spark sql读取xml文件

Spark SQL本身不原生支持XML文件读取，需要借助第三方库（如Databricks的spark-xml）将XML解析为DataFrame后，才能用SQL操作。

这是最关键的一步。不同Spark版本需匹配对应版本的spark-xml库：

Spark 3.0+：推荐使用com.databricks:spark-xml_2.12:0.17.0（Scala 2.12）
Spark 2.4：可用com.databricks:spark-xml_2.11:0.14.0
提交作业时通过--packages参数自动下载（本地开发或集群提交都适用）：
spark-shell --packages com.databricks:spark-xml_2.12:0.17.0

使用format("xml")指定数据源类型，并通过option()设置关键参数：

Fotor AI Image Upscaler

Fotor推出的AI图片放大工具

val df = spark.read
  .format("xml")
  .option("rowTag", "book")
  .option("inferSchema", "true")
  .load("books.xml")

登录后复制

将DataFrame注册为临时视图后，即可用标准Spark SQL语法查询：

df.createOrReplaceTempView("books")
然后运行：
spark.sql("SELECT title, @category FROM books WHERE @category = 'fiction'").show()
注意：XML属性在SQL中需加前缀（如@category），文本内容直接用字段名（如title）