创建-数据任务 · DataPipeline产品手册2.4.1

# 创建数据任务 ## 1.什么是「数据任务」？企业用户需要把某一个或者多个数据源（可以是数据库、文件系统，或者一切数据来源）的数据迁移到一个或多个数据目的地（可以是数据库、文件系统、数据仓库，或者任意一个可以存储数据的载体）。此时用户可通过创建数据任务在DataPipeline实现数据迁移的工作。 ## 2.创建数据任务能做什么？创建数据任务能带给用户的核心功能有： 1. 支持连接数据库、文件系统、文件作为数据源。 2. 支持数据库、数据仓库、文件系统、文件作为数据目的地。 3. 支持同时执行多个数据任务来完成数据迁移工作。 4. 支持定时、实时迁移数据。 5. 支持同步全量数据和增量数据。 6. 支持可视化操作设置轻数据清洗功能。 7. 有强大的运维数据监控系统。 8. 提供数据任务错误队列功能，帮助用户高效率解决问题。 9. 提供数据任务预警功能，帮助及时发现问题。 ## 3.如何创建数据任务？使用DataPipeline创建一项数据任务，主要分四个步骤： 1. 配置数据源和目的地 * [配置数据源](chapter1/shu-ju-yuan.md) * [配置数据目的地](chapter1/shu-ju-mu-de-di.md) 2. 进行任务设置 * [任务设置](rwsz.md) 3. 对数据目的地进行配置 * [选择同步表](xzschema.md) * [数据清洗](sjqx.md) 4. 激活数据任务 * [激活数据任务](chapter1/shu-ju-ren-wu-ji-huo-yu-guan-li.md) **1.在首页，点击「新建任务」。** :-: ![](https://box.kancloud.cn/df0d9c41e8d3eb0a581f774e6da378d8_1438x900.png) **2.配置任务名称，选择数据源和目的地。** * 用户可以自定义命名数据任务名称，最多50字符，不允许与其他任务同名。 * 用户可根据自身需求，配置所需的数据源和数据目的地。 * 目前支持配置的数据源：[MySQL](chapter1/shu-ju-yuan/pei-zhi-mysql-shu-ju-yuan.md)、[Oracle](chapter1/shu-ju-yuan/pei-zhi-oracle-shu-ju-yuan.md)、[SQL Server](chapter1/shu-ju-yuan/pei-zhi-sql-server.md)、[FTP](chapter1/shu-ju-yuan/pei-zhi-ftp.md)、[Couchbase](chapter1/shu-ju-yuan/pei-zhi-Couchbase.md)、[PostgreSQL](chapter1/shu-ju-yuan/pei-zhi-PostgreSQL.md)、[S3](chapter1/shu-ju-yuan/pei-zhi-s3.md)、[API](chapter1/shu-ju-yuan/pei-zhi-api.md)、[Kafka](chapter1/shu-ju-yuan/pei-zhi-kafka.md)。 * 目前支持配置的数据目的地：[Redshift](chapter1/shu-ju-mu-de-di/pei-zhi-redshift-shu-ju-mu-de-di.md)、[Oracle](chapter1/shu-ju-mu-de-di/pei-zhi-oracle-shu-ju-mu-de-di.md)、[MySQL](chapter1/shu-ju-mu-de-di/pei-zhi-aws-rds-shu-ju-mu-de-di.md)、[SQL Server](chapter1/shu-ju-mu-de-di/SQLServer.md)、[Kafka](chapter1/shu-ju-mu-de-di/Kafka.md)、[FTP](chapter1/shu-ju-mu-de-di/wen-jian-xi-tong.md)、[TIDB](shu-ju-mu-de-di/TIDB.md)、[Greenplum](chapter1/shu-ju-mu-de-di/Greenplum.md)、[Hive](chapter1/shu-ju-mu-de-di/Hive.md)、[HybridDB for PostgreSQL](chapter1/shu-ju-mu-de-di/HybridDBforPostgreSQL.md)。 * 若为首次创建任务，需要添加数据源和数据目的地，并确认数据源和目的地配置符合平台要求。详情请参考： * [如何配置数据源？](chapter1/shu-ju-yuan.md) * [如何配置数据目的地？](chapter1/shu-ju-mu-de-di.md) * 配置完成后，用户可以点击选择需要的数据源和目的地。 :-: ![](https://box.kancloud.cn/22b1a379daf4115a99bdee83a470ae89_2880x2196.png) **3.完成第一步后，点击「下一步」，需要用户对任务进行设置。** * 在这个页面，用户需要对任务进行个性化的配置，在这个页面支持对任务参与人、读取写入速率以及错误队列和错误通知等详细的内容进行设置。 * 参与人设置： * 参与人能够浏览、编辑该任务，并受到该任务相关通知； * 同步范围 * 全量数据和增量数据 * 全量数据读取模式设置； * 读取方式、读取频率； * 增量数据读取模式设置； * 读取方式、读取频率； * 数据源设置 * 读取并发数、读取速率限制； * 数据目的地设置 * 写入并发数、写入速率限制； * 表和字段名称设置：自定义、全部大写、全部小写。 * 高级设置： * 数据源变化设置：用户可在此处设置在数据任务同步过程中，数据源的表、字段变化的处理方式。 * 错误队列设置：支持设置错误队列预处理行数，错误率阈值等。 * 邮件设置：支持勾选需要邮件通知的信息。 * 子任务设置：支持设置batch大小，一次性批量写入数据量。 * 每个设置都已经预设了默认值，当您熟悉了解各项设置内容后，可以快速点击下一步进入后续创建流程。 :-: ![](https://box.kancloud.cn/66380d19f1b3ac46da0fd10f41b5a2ef_1440x1596.png) * 更多信息请点击[任务设置](rwsz.md)查看。 **4.完成任务设置后，点击「下一步」，会弹窗要求用户选择表。** * 用户根据自己的需求选择需要读取的表/视图或者集合。 * 要求至少选择一个表/视图或者集合。 * 选择完毕后点击「保存」。 :-: ![](https://box.kancloud.cn/aeb213eee60dedcbbfdd9f713aea1c03_2786x1598.png ) * 更多信息请点击[选择同步内容](xzschema.md)查看。 **5.同步表选择完毕后，用户需要完成清洗规则的配置。** * 在左侧列表中选择数据源表，右侧会显示该数据源表和目的地表的映射关系详情。 * 右侧字段详情页中，支持自定义修改目的地表名和字段名。 * 目的地表结构显示数据目的地实际的字段类型、标度、精度、主键、NotNull等信息。 * 支持针对每个字段设置：字段忽略、数据过滤、数据替换。（收起数据源表结构后进行配置） * 忽略：在任意非主键字段右方的忽略项上打钩后，该字段数据将不会被系统同步到数据目的地。 * 数据过滤：用户输入过滤规则后，系统只会同步符合该过滤规则的数据。 * 数据替换：用户输入替换规则后，系统会把符合规则的数据根据配置全部替换。 * 支持对数据表进行高级清洗配置。 * 基本清洗功能无法和高级清洗同时使用。 * 支持对数据表进行读取条件配置。 * 支持查看数据目的地实际字段类型。 * 对需要同步的每个表（集合）完成规则配置后，点击「保存」即可。 :-: ![](https://box.kancloud.cn/20edb2ff9e77858c4f81ede8e0bfe5e3_2880x1920.png) * 更多要求请点击[数据清洗](sjqx.md)查看。 **6.激活并查看数据任务。** * 点击「立即激活」，该任务会立刻开始同步数据。 * [概览Tab](yun-wei-guan-li/jin-du-xin-xi.md)下可以看到任务的整体同步状态以及每个数据表（集合）的同步信息。 * [错误队列Tab](yun-wei-guan-li/cuo-wu-dui-lie.md)下可以看到该任务同步过程中字段的具体错误信息。 * [任务设置Tab](rwsztab.md)下可以对任务通用配置进行灵活修改，实时调配任务的资源，设定通知等相关内容。 * [配置规则Tab](yun-wei-guan-li/pei-zhi-gui-ze.md)下可以看到该数据任务相关的一切配置信息。 * [消息列表Tab](yun-wei-guan-li/xiao-xi-lie-biao.md)下可以看到该任务历史错误信息及操作记录。 * 激活后，数据任务的配置信息不可更改。 :-: ![](https://box.kancloud.cn/f352f412f532d9ce8daa550ef4a501fc_2880x1800.png) **常见问题：** Q：数据源或目的地可以重复使用吗？ A：答案是肯定的，用户可以重复使用数据源或目的地来完成不同需求的数据任务。但有几个点需要注意： * 数据源或目的地新建成功后，当数据源未被占用时其配置信息允许修改，目的地暂时不允许修改。 * 如需使用同一服务器地址但访问用户或读取模式等具体配置信息不同的数据源或目的地，可以新建一个新的数据源或目的地并填写新的配置信息。 * 需要重复使用数据源或目的地时，用户只需要新建一个任务，选取已经存在的数据源或目的地即可再次使用。 Q：数据任务可以重复使用吗？ A：目前Datapipeline支持用户复制已经建立的任务，以减少用户创建相同任务的时间成本。