0

0

Spring Batch 中实现单作业多文件并行处理的最佳实践

碧海醫心

碧海醫心

发布时间:2026-01-27 14:23:02

|

416人浏览过

|

来源于php中文网

原创

Spring Batch 中实现单作业多文件并行处理的最佳实践

本文介绍如何在 spring batch 中高效处理同一目录下多个 json 文件(如按国家/地区和类型排序),通过“每文件一作业实例”策略实现真正并行读取与写入,兼顾顺序控制、可扩展性与容错能力。

在 Spring Batch 中,一个 Step 内确实不支持多个 Reader 实例同时运行——这是框架设计的基本约束:每个 Step 绑定唯一 ItemReader,其生命周期与 Step 强耦合。因此,试图在单 Step 内动态切换或并发启动多个 Reader(如为每个 JSON 文件分配独立 Reader)不仅违背模型语义,还会引发状态冲突、事务边界混乱及难以调试的竞态问题。

正确的解法是转变粒度:从“单作业多文件”升级为“多作业实例,每实例处理单文件”。这并非绕过限制,而是遵循 Spring Batch 的核心哲学——以作业(Job)为最小可调度、可追踪、可恢复的执行单元。

✅ 推荐方案:基于 Job Parameter 的文件级作业实例化

将每个待处理文件路径作为唯一标识性 Job Parameter(如 inputFile=/data/company_group/sg_company_group_alternate_id.json),配合 JobParametersIncrementer 确保每次启动生成新实例:

// 启动作业示例(如在 Controller 或 Scheduler 中)
JobParameters params = new JobParametersBuilder()
    .addString("inputFile", "/data/company_group/sg_company_group_alternate_id.json")
    .addLong("timestamp", System.currentTimeMillis())
    .toJobParameters();

jobLauncher.run(fileProcessingJob, params);

对应地,定义一个泛化 Job:

睿拓智能网站系统-网上商城
睿拓智能网站系统-网上商城

睿拓智能网站系统-网上商城1.0免费版软件大小:5M运行环境:asp+access本版本是永州睿拓信息专为电子商务入门级用户开发的网上电子商城系统,拥有产品发布,新闻发布,在线下单等全部功能,并且正式商用用户可在线提供多个模板更换,可实现一般网店交易所有功能,是中小企业和个人开展个人独立电子商务商城最佳的选择,以下为详细功能介绍:1.最新产品-提供最新产品发布管理修改,和最新产品订单查看2.推荐产

下载


    
        
            
        
    

其中 jsonFileItemReader 是参数化 Reader:

@Bean
@StepScope
public JsonItemReader jsonFileItemReader(
        @Value("#{jobParameters['inputFile']}") String inputFile) {
    JsonItemReader reader = new JsonItemReader<>();
    reader.setResource(new FileSystemResource(inputFile));
    reader.setJsonObjectReader(new JacksonJsonObjectReader<>(CompanyGroup.class));
    reader.setLinesToSkip(1); // 如需跳过 header
    return reader;
}

? 顺序控制与批量触发

虽然作业实例彼此独立,但你仍可通过外部逻辑保障执行顺序:

  • 预排序 + 串行提交:在调度层(如 @Scheduled 方法)中,先按规则(SG 优先、alternate_id 优先)对文件列表排序,再逐个调用 jobLauncher.run();
  • 并行提交 + 依赖调度:若需 SG 文件全部完成后再启动 MY 文件,可使用 CountDownLatch 或消息队列(如 Kafka)作为协调机制;
  • 元数据驱动:将文件清单与状态存入数据库,由 Quartz 定时扫描待处理文件并触发对应作业。

⚠️ 注意事项与最佳实践

  • 避免共享资源竞争:确保 ItemWriter(如 JPA Repository)线程安全,推荐使用无状态写入器,或为每个作业实例配置独立事务管理器;
  • 参数必须为 IDENTIFYING:inputFile 参数需设为 identifying(默认行为),否则 Spring Batch 会视为同一作业实例重复执行;
  • 监控与可观测性:利用 JobExplorer 查询各实例状态,结合 Actuator Endpoint 暴露作业指标;
  • 错误隔离:单个文件解析失败(如 JSON 格式错误)仅导致该作业实例失败,其余文件不受影响,重试成本极低。

综上,放弃“单 Step 多 Reader”的设想,拥抱“每文件一作业”的范式,不仅能自然解决并发读取问题,更带来弹性伸缩、精准重试、清晰追踪等企业级优势——这才是 Spring Batch 在真实场景中的正确打开方式。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
java
java

Java是一个通用术语,用于表示Java软件及其组件,包括“Java运行时环境 (JRE)”、“Java虚拟机 (JVM)”以及“插件”。php中文网还为大家带了Java相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

868

2023.06.15

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

745

2023.07.05

java自学难吗
java自学难吗

Java自学并不难。Java语言相对于其他一些编程语言而言,有着较为简洁和易读的语法,本专题为大家提供java自学难吗相关的文章,大家可以免费体验。

741

2023.07.31

java配置jdk环境变量
java配置jdk环境变量

Java是一种广泛使用的高级编程语言,用于开发各种类型的应用程序。为了能够在计算机上正确运行和编译Java代码,需要正确配置Java Development Kit(JDK)环境变量。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

398

2023.08.01

java保留两位小数
java保留两位小数

Java是一种广泛应用于编程领域的高级编程语言。在Java中,保留两位小数是指在进行数值计算或输出时,限制小数部分只有两位有效数字,并将多余的位数进行四舍五入或截取。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

440

2023.08.02

java基本数据类型
java基本数据类型

java基本数据类型有:1、byte;2、short;3、int;4、long;5、float;6、double;7、char;8、boolean。本专题为大家提供java基本数据类型的相关的文章、下载、课程内容,供大家免费下载体验。

447

2023.08.02

java有什么用
java有什么用

java可以开发应用程序、移动应用、Web应用、企业级应用、嵌入式系统等方面。本专题为大家提供java有什么用的相关的文章、下载、课程内容,供大家免费下载体验。

431

2023.08.02

java在线网站
java在线网站

Java在线网站是指提供Java编程学习、实践和交流平台的网络服务。近年来,随着Java语言在软件开发领域的广泛应用,越来越多的人对Java编程感兴趣,并希望能够通过在线网站来学习和提高自己的Java编程技能。php中文网给大家带来了相关的视频、教程以及文章,欢迎大家前来学习阅读和下载。

16968

2023.08.03

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

6

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 8.5万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号