ETL调度,调度的相关术语

1.作业-job

数据系统中最小执行单位,作业类型一般为存储过程、SQL脚本、shell脚本、程序(C、java)、webservice接口、ETL专业工具作业(Informatica powercenter、IBM datastage、Pentaho PDI(kettle)、Oracle ODI、Microsoft SSIS)、hadoop生态等。

2.任务-task

作业被实例化到任务计划表中称之为任务。

3.调度工具的特性

3.1顺序性

任务的先后顺序,后置任务一定是等待前置任务执行后运行,可以是成功后触发也可以是失败后触发。

3.2动态性

任务的状态是变化的,一般有如下几种状态:

  • 保持 HOLDING 任务被实例化后的状态,任务未被激活,不会被触发执行。
  • 等待 WAITING 任务等待,一般分等待前置任务完成、等待系统资源、等待设定时间,一旦没有前置任务和资源充足,该任务会被执行。
  • 运行 RUNNING 任务正在执行。
  • 完成 DONE 任务执行成功。
  • 失败 FAILED 任务执行失败。

    3.3容错性

    失败的任务可被手动或自动重做。

    3.4并行性

    无先后顺序的任务执行是同时的、互不影响的。

    3.5排他性

    无先后顺序的任务执行是不能同时的。

    3.6并发性

    可以控制任务并发的执行数,以有效控制系统资源利用,减少线程等待,提高IO性能。

    3.7优先性

    优先级高的任务需要被优先执行,同一系统资源限制下,优先级低的任务应排在优先级高的后面被执行。

    4.调度工具的基本功能

    4.1作业定义

    定义作业的基本信息,如名称,类型,重做次数,互斥条件,优先级,作业参数,定时器。

    4.2并发定义

    ETL节点服务器,数据源,目标库,作业类型的并发个数。

    4.3互斥定义

    ETL节点服务器,数据源,目标,作业类型的互斥条件。

    4.4任务监控

    展示当前批次的执行概况,可以操作当前任务的执行状态,完成实例化,激活任务,监控任务,任务重做,任务暂定,任务中断,任务恢复等。

    4.5执行历史

    查看任务执行的历史记录。

    4.6节点配置

    配置ETL节点服务器的信息。

    4.7数据源配置

    配置任务需要连接的数据库的连接信息。