任务设置 · DataPipeline产品手册2.4.1

# 任务设置 ## 1.什么是「任务设置」？在创建数据任务第二步中，用户已经对任务进行个性化的配置。在这个页面，用户可以在任务激活前后对一些通用配置进行灵活修改，实时调配任务的资源，设定通知等相关内容。 ## 2.主要设置内容介绍 :-: ![](https://box.kancloud.cn/5d1b0f86cdf4be09e97dba57fde444ff_1292x1372.png) ### A. 参与人设置 * 参与人拥有该任务的浏览和编辑权限，并且会在通知中心收到该数据任务的所有通知，包含： * 操作记录； * 数据任务错误信息； * 错误队列信息。 * 默认只显示该数据任务创建人，并且不允许删除。 * 点击「+」按钮，将显示下拉框进行参与人选择。 * 支持单选或多选参与人或勾选用户组选择整个用户组的用户作为参与人； * 再次点击取消选择； * 支持搜索用户名称，直接在输入框输入用户名关键词即可，区分大小写。 :-: ![](https://box.kancloud.cn/08ef2dd074b65d76cb89d8de71df404e_1374x980.png) * 参与人列表中，鼠标移动到参与人上，将显示「×」按钮，点击后将删除该参与人。 :-: ![](https://box.kancloud.cn/81da59fbbafe4e5e1c36166af069c07c_584x216.png) * 只有创建者和管理员能够删除任务。 ### B. 同步范围（Couchbase、API、Kafka数据源要求不出现该选项） * 两个选项：全量数据、增量数据 * 默认勾选两项都被勾选。 * 要求至少选择一个，不允许用户同时勾掉两个选项。 * 任务激活后不支持动态修改同步范围。 :-: ![](https://box.kancloud.cn/081744c12c5859c1703492388b368d9f_1164x206.png) * 用户选择的同步范围：全量数据 ### C. 显示全量数据读取设置 * 两个选项（单选）：同步一次，定时读取 * 默认选择「同步一次」。表示该任务只同步一次数据源数据到目的地即可。 * 定时读取，交互逻辑与之前「定时同步」一致。选择定时读取后，要求用户输入读取频率 * 默认为 60秒。 * 允许使用Cron表达式。交互逻辑当前版本一致。 :-: ![](https://box.kancloud.cn/b0c7aebc2a987187bd52b4a1656b8ccd_1596x358.png) * 备注：若数据目的地为Hive时按照全量覆写的方式完成。 * 用户选择的同步范围：增量数据（SQL类型数据源：MySQL、Oracle、SQL Server、PostgreSQL）。 ### C. 增量数据读取模式设置 * 用户必须选择实时增量读取方式 * 系统将根据数据源的实际信息显示是否支持读取模式，若不支持，对应的选项将会置灰。 * 不同的读取方式会提示不同的数据库要求信息，请您仔细阅读。 * 目前仅支持 MySQL、Oracle、SQL Server 、PostgreSQL数据源。 * 当数据源为MySQL和 PostgreSQL时，BINLOG、wal2json和decoderbufs实时读取模式是由数据库直接推送数据到DataPipeline客户端，所以当有新增数据时系统会自动同步数据。 :-: ![](https://box.kancloud.cn/1500234c5946f781b562c1dc9d97bee3_2292x958.png) * 当数据源为Oracle、SQL Server时，LogMiner和Change Tracking实时读取模式会采用定时查询方式读取增量，所以需要用户去设置一定的读取频率，用户设置读取频率越大相对来说数据延迟性也就越大，但读取频率过小时，会对系统造成一定的压力，因此，需要用户根据实际情况设置相对合理的读取频率，目前DataPipeline会默认读取频率为60秒。 :-: ![](https://box.kancloud.cn/c95c968d22d2b4ffbaedca7b9a77d6d9_2690x816.png) * 读取起点，用户可以选择从哪里开始读取增量数据 * 两个选项：激活任务为起点（默认）、自定义 * 选择自定义，用户需要自定义设置读取的起始位置。 * 数据源为MySQL，需要输入Binlog Postion（必填）、Binlog文件名称（必填）、GTID（选填） * 数据源为Oracle，需要输入「LogMiner scn 」（必填） * 数据源为SQL Server，需要输入Change tracking version （必填） * 数据源为PostgreSQL，需要输入lsn （必填） * 用户选择的同步范围：「全量数据」和「增量数据」。 * 全量数据默认只同步一次。 * 增量数据可以选择不同的读取模式进行数据读取。 * 选择实时读取方式 * MySQL数据源为Binlog；Oracle数据源为LogMiner；SQL Server数据源为Change tracking；PostgreSQL数据源为wal2json或者decoderbufs。 * 读取方式与只选择增量读取范围逻辑一致 * 选择增量识别字段 * 增量字段读取方式为每次轮询以大于等于上一次轮询结果的最后一行此字段值作为查询条件，查询结果判断为增量数据。 * 要求需要同步的表拥有增量识别字段，用于同步增量数据。选择的字段必须为可排序，例如数字或时间类型，推荐的字段类型一般为随数据更新而自增的字段，如： * 更新序列号（例：SequenceID） * 更新时间戳（例： UpdatedAt） * 选择增量识别字段，需要用户设置扫描频率，任务激活后会采用该频率进行定时扫描处理： * 两种输入方式：输入具体频率时间或输入Cron表达式； * 输入正整数并选择时间单位，使用该数据源的任务激活后会采用该频率进行定时扫描处理； :-: ![](https://box.kancloud.cn/bd08c92a84a2bc8befef0b58eb794dad_1530x456.png) * 点击「切换为Cron表达式」后，可以直接输入Cron表达式，或可「点击在线生成Cron表达式」辅助输入； * 点击「切换为常规模式」可切换回直接输入模式； :-: ![](https://box.kancloud.cn/2f980fd4ef39296c99fbcd52cdbb6461_1428x530.png) * 若实际数据读取时间超过了设定的频率，系统将会在上一次数据读取结束后立刻开始下一次数据读取。 * 请注意！任务激活后，读取方式将不能被修改，但您可继续修改读取频率。 :-: ![](https://box.kancloud.cn/63ca5729f091d05b2973f9891c6e5286_1418x464.png) ### D. 数据源设置 * 读取并发数量（支持 MySQL、Oracle、SQL Server 、PostgreSQL数据源） * 决定该任务的读取并发数，即同时扫描数据表的数； * 请输入正整数。 * 读取速率限制 * 支持两种速率限制：速率流量限制、速率行数限制； * 流量限制：限制读取的最高流量速率； * 默认单位为：KB/秒； * 点击下拉框可切换单位：MB/秒。 * 行数限制：限制读取的最高行数速率； * 默认单位：行/秒。 * 用户能够不选、单选或多选，若同时勾选，两种限制将同时应用。 * 勾选后即可激活对应的速率限制，请输入正整数； :-: ![](https://box.kancloud.cn/3b0487ad2f42c6275f4491fa98a1bd08_2444x314.png) ### E. 数据目的地设置 * 写入并发数量 * 决定该任务的写入并发数，即同时写入数据表的数； * 请输入正整数。 * 写入速率限制 * 支持两种速率限制：速率流量限制、速率行数限制； * 流量限制：限制写入的最高流量速率； * 默认单位为：KB/秒； * 点击下拉框可切换单位：MB/秒。 * 行数限制：限制写入的最高行数速率； * 默认单位：行/秒。 * 用户能够不选、单选或多选，若同时勾选，两种限制将同时应用。 * 勾选后即可激活对应的速率限制，请输入正整数； * 表和字段名称（目的地为Kafka时改为Topic和字段名称，FTP时改为文件名和字段名称） * SQL类型数据源、FTP和S3静态支持设置目的地大小写； FTP和S3动态、API数据源是暂不支持设置目的地大小写 * 支持用户设置目的地表名称和字段名称大小写 * 选项：自定义（默认）、全部大写、全部小写 * 鼠标浮在每个选项上提示用户 * 选择【自定义】，任务执行后，系统会根据用户自定义的表和字段名称写入到目的地。 * 选择【全部大写】，任务执行后，系统会将用户设置的所有表和字段名称转换为大写（只包含英文）后写入到目的地。 * 选择【全部小写】，任务执行后，系统会将用户设置的所有表和字段名称转换为小写（只包含英文）后写入到目的地。 :-: ![](https://box.kancloud.cn/866804663f3b6e1e6ce2bc9b805a9012_890x148.png) ### F. 数据源变化设置&错误队列设置&邮件通知设置&子任务设置 * 高级设置包含了数据源变化、错误队列设置、邮件通知设置以及子任务设置。 * 系统会默认展示数据源变化设置内容。 :-: ![](https://box.kancloud.cn/d66a83ba7d9749270858333f275610b8_1432x534.png) #### 数据源变化设置用户可在此处设置在数据任务同步过程中，数据源的表、字段变化的处理方式。 * 数据源删除正在同步的表 * 已存在表被重命名，系统会认为表被删除，重命名的表识别为新表。 * 选项一：继续同步其他表 * 选项二：暂停数据任务 * 同步的表字段被删除 * 重命名字段名称，系统会认为原始字段被删，发现新增字段。 * 选项一：继续同步，目的地该字段传空值 * 选项二：继续同步，目的地该字段被删除 * 选项三：暂停数据任务 * 同步的表发现新增字段 * 选项一：继续同步新增字段 * 选项二：忽略新增字段 * 已同步的数据在数据源被删除 * 当同步表不存在主键时无法获取数据源数据删除信息。 * 选项一：忽略，数据目的地数据保留 * 选项二：立即删除数据目的地数据 :-: ![](https://box.kancloud.cn/edfef7d9c1d5a4b0fab2b8f7bfc4cf13_1572x594.png) #### 错误队列设置数据任务同步时，错误队列将实时收集如脏数据、配置规则有误等数据相关错误，后置处理数据错误，避免数据无法写入目的地导致任务暂停的问题。 * 支持设置预处理的数据行数（默认为100000行） * 预处理机制能保证错误率的平均度，同时保证低数据量的任务的正常运行。详情点击错误队列预警； * 每个 schema 表将预先处理指定量的数据，根据指定量数据进入错误队列的比例计算错误率（错误率=进入错误队列的错误数/处理过的数据总数）； * 支持用户自定义设置该任务每个表预处理的条数，直接在输入框输入即可。 * 支持设置预警的百分比（默认为0.5%） * 当该任务的任意表的错误率达到指定值时，系统将发出预警通知； * 支持用户自定义设置该任务触发预警通知的错误率，直接在输入框输入即可。 * 支持设置暂停数据任务的百分比（默认为1%） * 当该任务的任意表的错误率达到指定值时，数据任务会被暂停，并发出通知； * 支持用户自定义设置该任务触发任务暂停的错误率，直接在输入框输入即可。 :-: ![](https://box.kancloud.cn/0a9301214cfb07326e028e346c60918c_1468x488.png) #### 邮件通知设置 * 支持用户设置哪些信息需要通过邮件提醒用户（默认勾选全部） * 数据任务错误信息 * 当发生导致数据任务暂停的错误时，您将受到邮件通知，包括： 1.无法连接数据库； 2.无法同步数据； 3.系统问题等。 * 错误队列预警 * 当错误队列达到预警错误率您将收到邮件通知。 * 错误队列暂停 * 当错误队列达到暂停错误率您将收到邮件通知。 :-: ![](https://box.kancloud.cn/1ddea47658e633eab1d00a8fde78bfed_1576x478.png) #### 子任务设置 * 支持用户设置batch大小来进行批量任务的写入，开启后对全任务中的子任务生效（单表、单文件或数据），配置规则—高级设置相关项空缺时默认采用该全局设置 * batch设置 * 待对子任务读取数据达到一定设置条件后，进行批量同步写入。 * 条数类型显示“读取满____条时批量写入”，输入框数值默认为5000，允许用户修改,输入为空时提示“不能为空”。 * 大小类型显示，“读取满____KB/MB时批量写入”，KB和MB单位可在下拉栏切换，用户可选填，允许修改，可以为空。 * 时间类型显示“读取满____秒/分时批量写入”，默认为30秒，秒和分可在下拉栏切换，允许修改，输入为空时提示“不能为空”。 * 条数和时间为必填项，不允许为空 * 大小为选填项，允许为空 :-: ![](https://box.kancloud.cn/02be636fcd377e55ffd8612d0c2818d2_1556x416.png) * 当您设置完毕后，请点击保存： * 若任务未激活或处于暂停状态，当您启动任务后该任务会应用新的任务设置； * 若任务正在进行中，则保存后将会自动重启该任务并应用新的配置。 * 若未修改任务设置，保存按钮不允许点击。