讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

Apache Spark 中重复使用 Dataset 两次时是否需要缓存？

碧海醫心

发布时间：2026-01-14 10:59:19

|

237人浏览过

|

来源于php中文网

原创

Apache Spark 中重复使用 Dataset 两次时是否需要缓存？

当 dataset 仅被复用两次且仅需单列进行轻量聚合（如 count/distinct）时，通常无需显式 cache；spark 的谓词下推与投影下推可大幅减少实际 i/o，盲目缓存反而可能因全列加载和内存开销而降低性能。

在您的代码中，tradesDataset 通过 sparkSession.sql("select * from a_table") 全列加载后立即调用 .cache()，但后续两个操作均只依赖单列：

select("uitid").distinct().count() → 仅需 uitid 列
filter("TRADE_DATE = ?").count() → 仅需 TRADE_DATE 列（及隐式计数所需的最小数据）

Spark SQL 查询优化器（Catalyst）会在物理执行前自动应用列裁剪（Column Pruning） 和谓词下推（Predicate Pushdown）。这意味着：
✅ 即使未缓存，两次行动（action）触发的两次执行计划中，底层数据源（如 Parquet、Hive 表、JDBC）实际读取的仅为所需列，而非全表所有字段；
✅ 对于支持下推的格式（如 Parquet/ORC），I/O 与反序列化开销显著低于全表扫描；
❌ 而 .cache() 会强制将 SELECT * 的全部列持久化到内存/磁盘，不仅浪费存储与 GC 压力，还可能挤占其他任务资源。

以下是更优的写法建议：

// ✅ 推荐：按需构建窄依赖 Dataset，避免冗余列
Dataset uitIdOnly = sparkSession.sql("SELECT uitid FROM a_table");
long distinctUitIds = uitIdOnly.distinct().count();

Dataset tradeDateOnly = sparkSession.sql("SELECT TRADE_DATE FROM a_table");
long countForDate = tradeDateOnly
    .filter(col("TRADE_DATE").equalTo(processingDate))
    .count();

或进一步合并为一次扫描（若逻辑允许）：

话袋AI笔记

话袋AI笔记

话袋AI笔记, 像聊天一样随时随地记录每一个想法，打造属于你的个人知识库，成为你的外挂大脑

下载

// ✅ 更高效：单次扫描 + 多重聚合（避免重复扫描）
Row result = sparkSession.sql(
        "SELECT COUNT(DISTINCT uitid) AS distinct_uitids, " +
        "       COUNT(*) FILTER (WHERE TRADE_DATE = '" + processingDate + "') AS count_for_date " +
        "FROM a_table")
    .first();
long distinctUitIds = result.getLong(0);
long countForDate = result.getLong(1);

⚠️ 注意事项：

缓存收益取决于数据规模、列宽、存储格式、集群资源——对宽表（数百列）、大字段（如 JSON/BLOB）或低速数据源（如远程 JDBC），不缓存优势更明显；
若后续还需多次访问多列组合或复杂计算，再考虑基于具体列子集缓存（如 .select("uitid", "TRADE_DATE").cache()）；
始终通过 EXPLAIN FORMATTED 验证执行计划，确认是否发生列裁剪（查看 Output: [uitid#123] 类日志）；
生产环境建议 A/B 测试：分别运行 cache() 与无 cache 版本，对比 Spark UI > SQL tab 中的 Input Rows/Bytes 与 Duration。

总结：“复用两次”不是缓存的充分条件；“是否减少整体计算/IO”才是决策核心。 在轻量单列聚合场景下，信任 Catalyst 优化器，优先让 Spark 智能裁剪，而非过早缓存。

相关文章

Java里如何开发简易博客评论功能_博客评论项目实战解析

在Java中如何开发简易问答社区

如何用Java开发小型学习管理系统

如何在Java中实现在线笔记本

java代码如何解析JSON格式的数据 java代码JSON处理的基础教程

相关标签:

js json apache session ai red sql json count select Filter column input hive spark apache ui

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 Spring Boot 中正确提交包含多文件的嵌套对象列表下一篇：在Java中如何使用retainAll方法取集合交集_Java集合操作解析

作者最新文章

MapStruct 多参数映射：正确使用 source 属性绑定方法参数

2026-01-12 15:48

酷狗音乐如何设置苹果手机铃声

2026-01-12 15:49

Python 中函数返回值的正确获取方式

2026-01-12 15:59

iPhone屏幕上出现的方块按钮怎么隐藏

2026-01-12 16:00

如何在 IntelliJ IDEA 中禁用紧凑型大括号格式（强制换行）

2026-01-12 16:00

Go语言中类型转换：将双向通道转为只读通道的语法解析

2026-01-12 16:04

如何在Java中跨类访问对象实例并共享状态

2026-01-12 16:04

天塌了！《棕色尘埃2》将开启和谐修改角色服装引不满

2026-01-12 16:04

iPhone 17e即将发布，刘海屏彻底成为历史

2026-01-12 16:08

微PE工具箱如何进行分区

2026-01-12 16:08

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

数据分析工具有哪些

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

676

2023.10.12

SQL中distinct的用法

SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

320

2023.10.27

SQL中months_between使用方法

SQL中months_between使用方法

在SQL中，MONTHS_BETWEEN 是一个常见的函数，用于计算两个日期之间的月份差。想了解更多SQL的相关内容，可以阅读本专题下面的文章。

346

2024.02.23

SQL出现5120错误解决方法

SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容，可以阅读本专题下面的文章。

1095

2024.03.06

sql procedure语法错误解决方法

sql procedure语法错误解决方法

sql procedure语法错误解决办法：1、仔细检查错误消息；2、检查语法规则；3、检查括号和引号；4、检查变量和参数；5、检查关键字和函数；6、逐步调试；7、参考文档和示例。想了解更多语法错误的相关内容，可以阅读本专题下面的文章。

357

2024.03.06

oracle数据库运行sql方法

oracle数据库运行sql方法

运行sql步骤包括：打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果，错误消息或退出sql plus。想了解更多oracle数据库的相关内容，可以阅读本专题下面的文章。

675

2024.04.07

sql中where的含义

sql中where的含义

sql中where子句用于从表中过滤数据，它基于指定条件选择特定的行。想了解更多where的相关内容，可以阅读本专题下面的文章。

571

2024.04.29

sql中删除表的语句是什么

sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name；该语句将永久删除指定表的表和数据。想了解更多sql的相关内容，可以阅读本专题下面的文章。

414

2024.04.29

Java 桌面应用开发（JavaFX 实战）

Java 桌面应用开发（JavaFX 实战）

本专题系统讲解 Java 在桌面应用开发领域的实战应用，重点围绕 JavaFX 框架，涵盖界面布局、控件使用、事件处理、FXML、样式美化（CSS）、多线程与UI响应优化，以及桌面应用的打包与发布。通过完整示例项目，帮助学习者掌握使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

2

2026.01.14

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

前端项目-尚优选【HTML/CSS/JS技术综合实战】

前端项目-尚优选【HTML/CSS/JS技术综合实战】

共39课时 | 4万人学习

WEB前端教程【HTML5+CSS3+JS】

WEB前端教程【HTML5+CSS3+JS】

共101课时 | 8.3万人学习

JS进阶与BootStrap学习

JS进阶与BootStrap学习

共39课时 | 3.2万人学习

最新文章

更多

在Java中如何使用Objects工具类_Java对象判空与比较解析

JPA原生查询中突破Oracle 1000项IN子句限制的优雅解决方案

MapStruct 中使用表达式调用自定义方法实现字段级动态映射

在Java中如何使用AtomicInteger实现原子操作_Java原子类线程安全解析

在Java中如何使用内部类_JavaNestedClass设计与使用解析

如何在 Java 中按多种分隔符（空格、括号、逗号）安全拆分字符串并提取词组

在Java里如何设置Java项目编码和字符集_Java环境兼容性说明

Java 中泛型通配符的 PECS 原则与 final 类型边界的关系解析

在Java里如何使用CountDownLatch协调线程执行_Java线程同步工具说明

在Java里NumberFormatException如何处理_Java数值解析异常说明

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部