当前位置:首页 > 技术知识 > 正文内容

大量数据也不在话下,Spring Batch并行处理初探

maynowei9个月前 (08-18)技术知识83

1 前言

前面写了一篇文章《通过例子讲解Spring Batch入门,优秀的批处理框架 》讲解Spring Batch入门,但要发挥它的作用,并行处理不能不了解。

2 四种模式

大多数情况下,单线程、单进程的Spring Batch已经能满足你的需求。在我们走向更复杂的特性之前,先看看简单的能不能用,Keep it Simple and Stupid。

不过,当你确定要使用并行处理时,Spring Batch也提供了多种选择。整体上分为两大类:

  • (1)单进程、多线程
  • (2)多进程

细分如下:

  • (1)多线程的Step(单进程)
  • (2)并行的Steps(单进程)
  • (3)远程分块(多进程)
  • (4)远程分区(多进程)

光从名字看,很难理解它们之间的差别,我们来一一介绍吧。

2.1 多线程的Step

通过提供一个TaskExecutor来执行,而TaskExecutor是可以自定义的,我们可以提供一个基于线程池的TaskExecutor,则可以实现多线程处理。

@Bean
public TaskExecutor taskExecutor(){
  return new SimpleAsyncTaskExecutor("spring_batch");
}

@Bean
public Step sampleStep(TaskExecutor taskExecutor) {
  return this.stepBuilderFactory.get("sampleStep")
    .<String, String>chunk(10)
    .reader(itemReader())
    .writer(itemWriter())
    .taskExecutor(taskExecutor)
    .build();
}

2.2 并行Steps

这个看起来跟第一个很像,其实完全不一样。它是多个steps之间来并行处理。所以job应该是可以分解为独立的step,不是按一步一步的顺序处理,这样才可以并行执行。比如下面的例子,step1和step2合并成一个flow1,而step3为flow2,flow1与flow2之间可以并行处理。

代码如下:

@Bean
public Job job() {
  return jobBuilderFactory.get("job")
    .start(splitFlow())
    .next(step4())
    .build()        //builds FlowJobBuilder instance
    .build();       //builds Job instance
}

@Bean
public Flow splitFlow() {
  return new FlowBuilder<SimpleFlow>("splitFlow")
    .split(taskExecutor())
    .add(flow1(), flow2())
    .build();
}

@Bean
public Flow flow1() {
  return new FlowBuilder<SimpleFlow>("flow1")
    .start(step1())
    .next(step2())
    .build();
}

@Bean
public Flow flow2() {
  return new FlowBuilder<SimpleFlow>("flow2")
    .start(step3())
    .build();
}

@Bean
public TaskExecutor taskExecutor(){
  return new SimpleAsyncTaskExecutor("spring_batch");
}

2.3 远程分块

在这种模式下,step会被拆成多个Java进程来处理,主程序与分块执行程序之间通过中间件来通信。如下图所示:

由上图可以看出,读取只有一个进程Manager,而处理进程Worker则可以多个,所以适用于易读而难处理的场景。

2.4 远程分区

远程分区跟远程分块容易混淆,但其实它们是不同的。前面讲解的远程分块是一个进程读,多个进程处理;而远程分区是多个进程读,多个进程处理,多个进程写:

所以,远程分区适用于容易有IO瓶颈的系统,因为它将读与写都拆到多个worker进程中去了。远程分区可以使用中间件,如消息队列,也可以不用。它通过PartitionHandler来进行分区处理,而Partitioner则定义了如何进行分区。

3 总结

本文介绍了Spring Batch并行处理的四种模式,分别是多线程Step、并行Steps、远程分块、远程分区。前两种比较简单,给出代码例子;而后两种则复杂得多,特别是远程分区模式,把IO压力和业务处理压力都分解了,能大大提高整个流程的处理效率。后续我们再专门讲解一下远程分区吧。


多读书,多分享;多写作,多整理。

相关文章

单片机C语言编程,心得都在这里了

单片机写代码总踩坑,头文件被无视,老工程师的经验哪里来?前几天写8x8矩阵键盘的程序,搞了三天代码一直乱报错。后来发现自己连头文件是什么都不清楚,之前写的都是小程序,压根没碰过.h文件。看别人的程序都...

Qt QWaitCondition 的正确使用方法

简单用法QWaitCondition 用于多线程的同步,一个线程调用QWaitCondition::wait() 阻塞等待,直到另一个线程调用QWaitCondition::wake() 唤醒才继续往...

Oracle又双叕开始严查JDK,连夜提桶跑路

哈佛商业报道了最近几起北美的JDK许可问题公司用了来源不明的JDK,怕蹲里面,连夜提桶跑路The company uses JDK from unknown sources, and is afrai...

Oracle 11g安装教程完整版(oracle 11g 安装教程)

由于工作需要,将安装的经验分享给大家。第一步:首先准备安装文件包:Oralce 11.2.0.4 64bit和plsqldev1405x64如图所示:第二步:将2个文件解压到同一个目录,如图所示:第三...

oracle和mysql的优缺点对比(oracle和mysql哪个简单)

oracle的优缺点优点:开放性:oracle 能所有主流平台上运行(包括 windows)完全支持所有工业标准采用完全开放策略使客户选择适合解决方案对开发商全力支持;可伸缩性,并行性:Oracle...

采用Oracle OSB总线进行服务注册和接入

做大型企业内部业务系统集成的应该都知道,Oracle SOA套件当前是应用广泛的一个商业集成产品套件,其中包括了OSB服务总线, BPEL业务流程引擎,BPM业务流程管理,ODI大数据服务集成,MFT...