管理数据同步 · DataPipeline产品手册2.7.0

[TOC] # 数据任务详情页 ![](https://img.kancloud.cn/45/27/452701e25fd7228d884ad0cce3609572_2880x2600.png) ### A. 基本信息内容：数据任务名称、编辑按钮、删除按钮、复制按钮、回滚按钮以及数据任务状态。 #### 「数据任务名称」 * 是该数据任务在DataPipeline的唯一标识。 * 允许修改数据任务名称，但当数据任务激活后不可修改。 #### 「编辑按钮」 * 点击后立即跳转到数据任务编辑页面，可修改数据任务的一切配置细项。 * 数据任务激活后，无法编辑数据任务。 #### 「删除按钮」 * 用户确认删除数据任务后，无法恢复该数据任务。 * 数据任务激活后，用户需要暂停该数据任务后才能删除。 * 用户点击删除「数据任务」，会二次确认，删除后页面会直接跳转到「数据任务列表」页面，系统会在后台对该任务进行删除。（删除无法恢复该「数据任务」） * 只允许创建人和管理员删除数据任务。 * 点击后页面会直接跳转到数据任务主页，系统会在后台对该任务进行删除。 * 期间用户可以在数据任务主页看到该任务的状态或者再次进入该任务的详情页。 * 当任务被完全删除后，系统会在平台右上角提示用户任务删除成功。 :-: ![](https://img.kancloud.cn/4a/e5/4ae53dabb792322d42e72ffe2a933a58_556x138.png =480x) #### 「复制按钮」 * 点击「数据任务」名称右侧的复制按钮后，成功复制一个该任务； * 复制任务后跳转到复制后的「数据任务」的详情页，并在右侧提醒：复制成功； * 若已存在“原任务名称\_copy”，则复制后的名称后加数字，为“原任务名称\_copy1，原任务名称\_copy2”...依次类推。 * 若复制后，名称超过限制长度50个字符，则后缀“\_copy”作为最后结尾字符； * 例如：复制名称为 “Maximxx...xxtest（50字符）”的数据任务，复制后的名称应为“Maximxx...x\_copy(50字符)” * 注意事项： * 复制后的「数据任务」的参与人第一位应该为操作复制者，其他参与人不复制，即：新任务参与人仅包括：新任务复制（创建）人； * 数据源/数据目的地/任务设置/配置规则等均与原「数据任务」保持一致 * 若复制时，部分原「数据任务」配置，例如部分表已删除不可选择，或原「数据任务」读取模式已经无法使用等，则弹窗提示用户。 :-: ![](https://img.kancloud.cn/92/cc/92cc903597e855a6b4201980947bc5ca_2672x1528.png =480x) * 不论原「数据任务」何种状态，复制后的「数据任务」均为未激活或去完善的状态，配置信息为「原数据任务」的配置信息，允许用户点击编辑，修改任务名，配置信息等； * 复制的「数据任务」创建人和时间以实际操作者和操作时间为准； * 不复制「数据任务」概览信息、消息记录和错误队列等任务运行后相关记录； #### 「回滚按钮」 * SQL类型数据源实时模式有增量数据产生时，提供回滚机制 * 回滚功能依托于用户新建「数据源」时设置的打点频率和打点范围 * 打点频率决定了回滚的最小粒度。假设打点范围为一天，意味着只能从一天前的打点时间回滚；如果设置打点频率为一小时，系统就会每小时记录一个打点位置。 :-: ![](https://img.kancloud.cn/b9/14/b914998824a1865580c7d6b3ac55e513_720x1000.png =360x) * 目前不支持单个表的回滚，只能回滚该「数据任务」下的所有表。 * 回滚时，下游用户需要自己决定是否进行「数据清理」，DataPipeline是不会在回滚前去删掉下游的数据的。 * 同时，用户得保证自己缓存的日志最大范围。假设我们打了3天的点，但用户如果每天清除binlog的话也是无法追溯的。 * 激活状态下，设置「回滚机制」后，立即生效，开始数据回滚； * 暂停状态，编辑「回滚机制」后，点击「重启」开始生效。 * 点击「回滚」，立即弹窗显示「回滚设置」 * 用户可以选择「回滚」的方式：有两个选项：一、按「回滚时间」（默认），二、按「回滚位置」； * 按「回滚时间」（默认） * 用户可点击日历按钮选择过去时间 :-: ![](https://img.kancloud.cn/93/19/9319a885ed43aae449f62af980cf6da6_1279x631.png) * 选择完要回滚的时间后，展示后端返回的真实打点位置线，打点间隔根据用户设置的打点频率进行变动 * 默认直接定位到离该时间点最近的时间戳上，鼠标浮上下方展示出该时间戳，并且要求位置线下方展示出该时间戳的具体位置信息，每个数据源展示不同。 * 数据源为mysql 显示Binlog Postion、Binlog文件名称、GTID * 数据源为：Oracle 显示LogMiner scn * 数据源为：SQL Server 显示Change tracking version * 数据源为：PostgreSQL 显示lsn * 默认展示出附近十条打点位置 * 用户可以鼠标拖拽至自己想回滚的时间戳，下方时间戳具体位置信息根据用户选择随时变动，方便用户查看 * 按回滚的位置 * 用户选择按回滚位置进行回滚时，不同的数据源显示不同。 * 数据源为mysql * 显示Binlog Postion（必填）、Binlog文件名称（必填）、GTID（选填） * 数据源为：Oracle * 显示LogMiner scn（必填） * 数据源为：SQL Server * 显示Change tracking version（必填） * 数据源为：PostgreSQL * 显示lsn （必填） :-: ![](https://img.kancloud.cn/27/ed/27edc48d63443ed4e88fc629260b0a6c_1279x516.png) * 用户设置完毕后，可点击保存 * 点击「保存」后，任务将从用户指定的时间点开始重新同步该任务所有表的增量数据。 * 再次点击回滚按钮，可重新选择回滚位置。 * 数据源未被任务占用时，允许修改打点频率和打点范围，修改后的数据源按照新设置进行打点。 * 每个数据源独立存在，当数据源配置信息一致时可设置不同的打点频率和打点范围。 #### 「数据任务状态」 * 目前「数据任务」状态有：去完善、未激活、进行中、已暂停、获取失败（还有过渡状态，如：启动中、暂停中、删除中等） * 未激活：「数据任务」尚未被用户激活，此时用户可以修改「数据任务」配置细项。 * 进行中：「数据任务」已开始执行任务，用户可以通过操作按钮暂停，但不允许修改「数据任务」「数据源」和「数据目的地」。 * 已暂停：「数据任务」已被用户或系统暂停，用户可以点击「重启」要求系统继续执行「数据任务」。 * 获取失败：「数据任务」已开始执行任务，但由于网络等原因，数据暂时获取失败，等待任务自动恢复。 :-: ![](https://img.kancloud.cn/1f/b7/1fb78b7b08e0a1a3078cf43914531594_1860x1266.png =480x) * 操作按钮 * 根据「数据任务」状态，自动显示所对应的按钮。 * 未激活 * 若该「数据任务」尚未完成激活所需要的设置，则会显示「去完善」按钮，用户点击后会立即跳转到数据任务编辑页面。 * 若该「数据任务」完成设置，则会显示「立即激活」按钮，用户点击后会开始执行数据任务。 * 进行中 * 会显示「暂停」按钮，用户点击后该数据任务会暂停所有数据同步工作。 * 已暂停 * 会显示「重启」按钮，用户点击后该数据任务会继续执行该数据任务。 * 获取失败 * 不显示额外的按钮，用户需要耐心等待系统自动恢复该任务。 * 用户暂停或重启数据任务不会发生数据丢失情况。 * 当数据任务同步工作发生异常情况，系统会自动暂停数据任务。 * 不建议频繁点击「暂停」「重启」，建议合理使用该功能。 ### B. 单位切换按钮数据任务详情页默认的统计单位为：行。用户可根据需求切换为：MB。 ### C. 「数据源及目的地」信息 * 「数据源」： * 显示该「数据任务」使用的「数据源」名称、图标显示「数据源」类型。 * 点击「详情」，可浏览该「数据源」的配置信息详情。 * 「数据目的地」： * 显示该「数据任务」使用的「数据目的地」名称、图标显示「数据目的地」类型。 * 点击「详情」，可浏览该「数据目的地」的配置信息详情。 ### D. 「数据任务统计」 * 已读取数据量： * 指 DataPipeline 从数据源已读取的数据量。 * 当 DataPipeline 系统重启，会根据断点续传机制从上一次读取记录点开始重新读取数据，重复读取的数据量不会记录到已读取数据量里。 * 无主键的定时同步时全量替换数据，故每次定时读取全量数据，数据源没有更新的数据会再次读取。 * 已处理数据量： * 指 DataPipeline 已处理的数据量，这里包括：同步到数据目的的数据量和进入到错误队列的数据量。 * 当 DataPipeline 系统重启，会根据断点续传机制从上一个读取记录点开始重新写入部分数据，但这部分数据不会记录到已写入数据量里。 * 错误队列：指已读取的数据中系统判断无法写入到数据目的地，而异步放到错误队列中的数据量。： * 读取速率：指DataPipeline从数据源读取数据的速率。 * 处理速率：指DataPipeline处理数据的速率 ### E. 「重新同步」 * 数据源为SQL类型（MySQL、Oracle、SQL Server、Postgre SQL）时，支持重新同步表到目的地 * 选中要重新同步的表，用户点击重新同步按钮，弹窗显示出重新同步策略 :-: ![](https://img.kancloud.cn/b4/b9/b4b9db2459b768ab9b5d1e944a5b61e1_657x329.png =480x) * 读取方式为实时模式或者批量同步一次时，支持用户去选择是否清除目标表的数据 * 开启此项，代表重新同步表时，会先清除掉目标表的数据再进行写入 * 关闭此项，代表重新同步表时，不会清除掉目标表的数据，若表无主键则目的地会存在重复数据。 * 读取方式为批量定时同步时，将按照任务设置界面是否定时清除目标表数据的逻辑进行重新同步策略 * 点击重新同步按钮，若表的数据已经写入完毕，则系统会等下一次的执行时间来进行重新同步操作；若表尚未完成写入，则系统会立即开始重新同步操作。 * * * * * ## 常见问题 ### Q1：读取模式失效的，复制任务后任务以何种方式读取数据？原任务读取模式失效，复制后的任务采用任务设置的默认选择。 * * * * * ### Q2：数据表失效的，复制任务后的任务是否还同步失效的表？数据表选择失效的，复制后新任务不再选择失效表。