概述

Apache DolphinScheduleropen in new window是一个分布式易扩展的可视化DAG工作流任务调度开源系统, 解决数据研发ETL 错综复杂的依赖关系,不能直观监控任务健康状态等问题。 DolphinScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态, 同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。

概览

数据源

即数据的来源,本质是讲存储或处理数据的媒介,比如:关系型数据库、数据仓库、数据湖等。 每一种数据源不同,其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。

源数据

源数据强调数据状态是“创建”之后的“原始状态”,也就是没有被加工处理的数据。在数据管理的过程中,源数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据,或者直接拷贝源文件的“副本数据”。

数据连接

定义访问数据实体存储(计算)空间所需的信息的集合,包括连接类型、名称和登录信息等。

作业(数据开发)

在数据开发中,作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。

节点

节点用于定义对数据执行的操作。例如,使用“Spark SQL”节点可以实现在调度执行预先定义的Spark SQL作业。

资源

用户可以上传自定义的代码或文本文件作为资源,并在节点运行时调用。