产品更新日志 · DataPipeline产品手册2.4.1

# 产品更新日志 ## 2019/3/20 Version 2.4.1 #### 增加HybridDB for PostgreSQL数据目的地点击「新建数据目的地」，选择「HybridDB for PostgreSQL」进行新建操作： :-: ![](https://box.kancloud.cn/b0b33d0038c3933ad94cf797de21fc22_1254x1312.png =360x) * 数据目的地名称：是该数据目的地在DataPipeline的唯一标识。 * 服务器地址：输入连接数据目的地的域名或IP地址。 * 端口：输入连接数据目的地的端口值。 * 数据库名称：要求连接数据库的名称。 * Schema：要求输入目的地写入目录地址。 * 用户名和密码：输入可访问该数据目的地的用户名和密码。 * 成功连接后将会自动打开该数据目的地的详情页。 ## 2019/1/21 Version 2.4 ### 新功能点 #### 增加Kafka数据源点击「新建数据源」，选择「Kafka数据源」进行新建操作： ![](https://box.kancloud.cn/d6ea98e06595476a06931ccb91a7afc7_952x696.png =360x) * 数据源名称：是该数据源在DataPipeline的唯一标识 * 服务器地址：输入连接数据目的地的域名或IP地址及端口值，允许输入多个地址，使用","分隔。 * ZooKeeper地址：输入连接Zookeeper的域名或IP地址及端口值，允许输入多个地址，使用","分隔。 * Schema Register地址：输入Schema Register地址 * 数据格式： * JSON（默认）、AVRO、STRING * 点击连接后将验证数据源连接配置并同时检验数据源版本、权限等信息； * 成功连接后将会自动打开该数据源的详情页 #### 实时任务回滚功能 * 当数据任务为：SQL类型数据源实时模式作为增量数据的读取方式时，提供回滚机制。 * 数据任务详情页提供回滚入口，任务处于激活、暂停才会高亮，其他状态置灰 ![ ](https://box.kancloud.cn/4d06843a26e0cfab0cf0d032e64b2ed0_1094x610.png =360x) * 点击「回滚」，立即弹窗显示「回滚设置」 * 用户可以选择回滚的方式：有两个选项，一：按回滚时间（默认），二：按回滚位 * 按回滚时间（默认） * 选择完要回滚的时间后，展示后端返回的真实打点位置线，打点间隔根据用户设置的打点频率进行变动 * 默认直接定位到离该时间点最近的时间戳上，鼠标浮上下方展示出该时间戳，并且要求位置线下方展示出该时间戳的具体位置信息，每个数据源展示不同。 * 数据源为mysql * 显示Binlog Postion、Binlog文件名称、GTID * 数据源为：Oracle * 显示LogMiner scn * 数据源为：SQL Server * 显示Change tracking version * 数据源为：PostgreSQL * 显示lsn * 默认展示出附近十条打点位置 * 用户可以鼠标拖拽至自己想回滚的时间戳，下方时间戳具体位置信息根据用户选择随时变动，方便用户查看 * 按回滚的位置 * 用户选择按回滚位置进行回滚时，不同的数据源显示不同，同上 * 数据源未被任务占用时，允许修改打点频率和打点范围，修改后的数据源按照新设置进行打点。 * 每个数据源独立存在，当数据源配置信息一致时可设置不同的打点频率和打点范围。 #### 同步全量和增量允许用户自定义 * 设置任务增加「同步范围」 * 两个选项：全量数据、增量数据，用户可以选择只同步全量或者只同步增量，可同时选择 * 只选择全量 * 两个选项（单选）：同步一次，定时读取 * 默认选择「同步一次」。表示该任务只同步一次数据源数据到目的地即可。 * 定时读取，交互逻辑与之前「定时同步」一致。选择定时读取后，要求用户输入读取频率 :-: ![](https://box.kancloud.cn/b71da0b73bbf6c46d2ff1839b2e7809c_1280x358.png =360x) * 只选择增量 * 只能选择实时模式 * SQL类型数据源：MySQL、Oracle、SQL Server、PostgreSQL时，实时模式，增加读取起点选项，用户可以设置增量数据读取的起始位置。 * 两个选项：激活任务为起点（默认）、自定义 :-: ![](https://box.kancloud.cn/1500234c5946f781b562c1dc9d97bee3_2292x958.png =360x) * 用户选择的同步范围：「全量数据」和「增量数据」。 * 全量数据默认只同步一次。 * 增量数据部分设置 * 可以选择实时读取与增量识别模式，与当前逻辑一致 #### 任务和单表级别batch设置 * 任务设置增加"子任务设置模块" * 文案提示：设置开启后对全任务中的子任务生效(单表，单文件或数据)，配置规则-高级设置相关项空缺时采用该全局设置。 * batch设置 * 文案：「待对子任务读取数据达到一定设置条件后，进行批量同步写入」。条件包括条数，大小和时间，条数和时间为必填项，为空时不能进入下一步。 * 条数类型显示“读取满\_\_\_\_条时批量写入”，输入框数值默认为5000，允许用户修改,输入为空时提示“不能为空”。 * 大小类型显示，“读取满\_\_\_\_KB/MB时批量写入”，KB和MB单位可在下拉栏切换，用户可选填，允许修改，可以为空。 * 时间类型显示“读取满\_\_\_\_秒/分时批量写入”，默认为30秒，秒和分可在下拉栏切换，允许修改，输入为空时提示“不能为空”。 * 单表设置batch * batch设置【批量写入】 * 文案提示：设置开启后对当前界面的表或文件生效，读取数据达到设置条件后，进行批量同步写入。优先级高于全局子任务设置，启用时优先采用。条件包括条数，大小和时间，均为选填项。 * 条数类型显示“读取满\_\_\_\_条时批量写入”，输入框数值默认为5000，允许用户修改,输入可以为空。 * 大小类型显示，“读取满\_\_\_\_KB/MB时批量写入”，KB和MB单位可在下拉栏切换，用户可选填，允许修改，可以为空。 * 时间类型显示“读取满\_\_\_\_秒/分时批量写入”，默认为30秒，秒和分可在下拉栏切换，允许修改，输入可以为空。 #### Hive、Kafka、FTP目的地配置增加唯一键 * 目的地为hive、kafka、文件系统类型时，配置规则-目的地表结构中，增加「唯一键」字段 * 不点亮小钥匙，则不进行唯一键去重；点亮多个，则按默认规则组合唯一键去重；点亮1个，选中字段直接用于唯一键去重 * 指定多个唯一键时，后端自动生成唯一键虚拟值用以去重筛选。 #### Hive全量覆写 * 用户选择Hive目的地，并且同步范围选择「全量数据」 * 若用户对同步的表不进行分区，则每次定时同步全量数据时：DP会先删除目的地对应的hive表，并全量覆写。 * 若用户对同步的表进行了分区 * 如果是需要在新的分区下写入数据，则直接写入对应该分区的数据。 * 如果是需要在老的分区下写入数据，则删除老分区的所有数据后再写入本次全量覆写中对应该分区的数据。 ### 优化功能点 #### 定时同步提供任务级别标记功能 * 目前的定时同步逻辑：当该任务下的单个表完成一次定时同步后，会单独计时用户设置的频率时间开始下一次的读取数据。 * 优化后的定时同步逻辑：当该任务所有表完成一次同步后，再根据用户设置的频率时间统一开始定时读取数据。 * 当用户选择SQL类型数据源（MySQL、SQL Server、Oracle、PostgreSQL），FTP、S3 * 系统会在状态表中记录： * 该「任务」和所有表「表」全量同步的信息 * 字段一：最后一次同步完成时间。第一次没有，以后是永远被更新。 * 字段二：当前状态：同步中、等待中。 * 该「任务」和所有表「表」增量同步的信息 * 字段一：最后一次同步完成时间。第一次没有，以后是永远被更新。 * 字段二：当前状态：同步中、等待中。 #### 清洗脚本支持存储与调用，方便用户高效快捷使用清洗脚本功能。 ![](https://box.kancloud.cn/e319631c2fc77c7a839eadcd5466dea1_1082x666.png =360x) * 支持用户直接调用默认脚本 ①DML.java 提示内容： DML字段标识脚本：源表数据发生变化时，在目的地表中增加相应的 DML 标识字段，包括 insert、update、delete ②CollectTime.java 提示内容：读取时间脚本：根据数据读取时间，在目的地表中增加相应的时间字段 ③UpdateTime.java 提示内容：写入时间脚本：根据数据写入时间，在目的地表中增加相应的时间字段 #### Hive目的地优化 * hive目的地存在同名表进行提示 * 分区字段要求在目的地列表里显示。 * 提示优化： * wallclock、record、recordfiled 提示 * path.format格式提示 * 增加「LDAP」认证方式 * 下方显示三个选项：服务器地址&用户名&密码。 * 不允许为空，否则在输入框直接提示：不能为空。 #### 目的地表和字段名称支持大小写设置 * 任务激活前支持修改目的地大小写设置 #### API数据源 * 修改该数据源下的任意API参数，用户保存后要求执行到所有使用该API的任务。 * 当用户修改某一个API的参数设置: * 勾选该API，并且未激活数据任务点击「激活」后要求使用修改后的API参数。 * 勾选该API，并且已激活的数据任务（不管装提示「已暂停」还是「进行中」）： * 从下一次请求开始使用最近更新的API参数。 * 已激活的相关API任务要求按照顺序完成（优先顺序为以最近激活的任务）。 #### 任务详情页支持排序功能和搜索功能 * 数据源为mysql、oracle、pg、sql server、API时，支持表排序功能 * 表名称/API名称、已读取数据、已处理数据、错误队列、完成进度提供排序功能 * 仅支持对一项列名进行排序，不支持多个同时排序 #### 同步列表支持查看已选表情况 * 选表完毕后点击「保存」 * 弹窗右上侧显示“已选表/视图”按钮 * 点击后，按钮变蓝，可筛选显示当前所有已勾选表和视图名称 * 再次点击后，按钮变灰，显示全部表 ![](https://box.kancloud.cn/1a42ebb3717c82913fb49714259d1869_1200x1428.png =360x) #### 动态修改表结构 * 增减表操作在任务为暂停/未激活状态下进行支持修改表结构，同时在增表后标注新增表 ## 2018/11/30 Version 2.3 ### 新功能点 #### 新增数据源API * 点击「新建数据源」，选择「API数据源」进行新建操作： :-: ![](https://box.kancloud.cn/85bc60074f16a072963e144f77257d52_2788x1486.png =360x) * 数据源名称：是该数据源在DataPipeline的唯一标识 * 保存成功连接后将会自动打开该数据源的详情页 * 创建API数据任务，进入配置规则界面需要用户去添加API * 用户可以去设置API名称、URL、请求方式、API请求频率、参数设置等信息 * 选择完本次任务需要的API后，点击保存 * 同步列表显示对应的API名称 * 用户勾选了多少个API，同步列表显示对应个数的目的地表设置入口。 * 完成目的地表结构设置后，点击【保存】，然后激活任务即可开始执行API数据源到目的地的同步工作。 #### 支持修改和删除数据源和目的地 * 数据源和数据目的地详情页添加编辑按钮 * 允许用户去修改数据源和目的地配置信息，但仅限于未被任务占用的数据源和目的地，否则无法进行编辑和删除 * 修改成功后，数据源和目的地详情页会显示出最新的信息 ![](https://box.kancloud.cn/024e15201c7d4db9126aaa376804802b_2880x2036.png =360x) * 元数据管理-数据源详情页同样支持数据源的编辑和删除，逻辑与修改数据源和目的地保持一致 ![](https://box.kancloud.cn/80c4514dcc83d95ba0e3ac38ef0ead20_1440x1100.png =360x) #### 元数据管理数据源和表支持手动刷新 * 元数据管理所有数据源的表结构采取定时每天更新一次的策略，定时刷新之余，用户可以手动刷新出数据源和表最新结构 * 数据源增加手动刷新功能，点击【刷新】按钮，要求刷新出最新的数据源信息、表或视图 list ![](https://box.kancloud.cn/8b039f2bd4dc79731f7ea4303cbb9a6b_1440x1100.png =360x) * 表级别增加手动刷新功能，点击【刷新】要求展示出最新的表结构信息和视图信息（技术元数据、业务元数据、样例数据） ![](https://box.kancloud.cn/4e25ac7bf881b3035b34e434485366d5_1440x1262.png =360x) #### 数据源支持设置元数据管理开启或关闭 * 新建数据源时，用户可以设置开启或关闭该数据源的元数据管理功能 * 关闭后，用户无法在元数据管理页面查看和编辑该数据源信息 * 用户在元数据管理数据源详情页也可以设置开启或者关闭元数据管理 ![](https://box.kancloud.cn/a94293e89f111adc45d7f6eabe4a20af_1440x1100.png =360x) #### 元数据管理表级别增加tab评论区 * 支持用户在评论区对表进行评论 * 自己其他人可以查看和回复评论，每条评论和回复都支持回复，允许多次回复。 ![](https://box.kancloud.cn/b48cdcb125cbd006e6c64e4eb3f19f61_1440x900.png =360x) * 当有人对表进行评论，要求给表负责人发送通知；当有人对评论进行回复时，要求给表负责人和评论创建人发送通知；当有人对回复进行回复时，要求给表负责人、评论创建人和回复人发送通知。 #### 系统设置 * DataPipeline顶部菜单添加【系统设置】Tab * 只允许管理员组可见，所有管理员的设置状态是同步的，要保证该服务器下的所有用户的系统设置是一致的。 * 支持用户系统设置数据任务、元数据管理 * 要求用户主动选择每个错误通知邮件是否包含错误栈信息。 * 要求用户主动去设置表结构刷新频率。 ![](https://box.kancloud.cn/940a4c81d5dbb634864dafd4a61636f0_2880x1800.png =360x) ![](https://box.kancloud.cn/54913016df0c1b5a41a0fa5af36bfe82_1440x900.png =360x) #### 目的地支持设置表和字段名称大小写 * 任务设置-目的地设置列增加设置表和字段名称大小写选项 * 支持用户根据需要设置目的地表和字段名称大小写 * 选择【自定义】，任务执行后，系统会根据用户自定义的表和字段名称写入到目的地。 * 选择【全部大写】，任务执行后，系统会将用户设置的所有表和字段名称转换为大写（只包含英文）后写入到目的地。 * 选择【全部小写】，任务执行后，系统会将用户设置的所有表和字段名称转换为小写（只包含英文）后写入到目的地。 * 本版本任务激活前和激活后均不支持修改 ### 优化功能点 #### 元数据管理搜索功能支持字段搜索 * 搜索关键词增加字段级别的搜索 * 搜索结果增加Tab，顺序为：数据源、表、视图、字段。 * 点击字段Tab，显示搜索结果内容为：字段名称、标签、别名、描述、表名称、数据源名称。 * 点击任意搜索结果字段，立即跳转到该字段所属的表信息详情页。 ![](https://box.kancloud.cn/6ce506130ad03873a6aaf2026dca5fb4_1440x1000.png =360x) #### Where语句自定义优化功能 * where语句任务级别隔离，where语句只服务于当前任务，用户若创建新的任务并同样使用了已在别的任务使用了where语句的数据源表，要求where语句区域为空，并支持设置不同的where语句。 #### 动态加减表优化 * 支持所有的SQL类型（MYSQL、SQL Server、Oracle、Postgre SQL）数据库都支持加减表，操作逻辑与mysql一致 #### 表重新同步需求优化 * 支持数据源为SQL类型（MYSQL、SQL Server、Oracle、Postgre SQL），任务详情页的表同步列表在增加一列：多选项，都支持重新同步表全量数据。 #### S3和FTP数据源支持所有数据目的地同步任务 | 数据源类型 | 数据源表结构类型 | 可支持的数据目的地 | | --- | --- | --- | --- | | S3 | 静态表结构 | MySQL、SQL Server、Oracle、TiDB、Greenplum、FTP、Kafka、Redshift、Hive | | S3 | 动态表结构 | Kafka、FTP、Hive（未开启hive）、Greenplum | | FTP | 静态表结构 | MySQL、SQL Server、Oracle、TiDB、Greenplum、FTP、Kafka、Redshift、Hive | | FTP | 动态表结构 | Kafka、FTP、Hive（未开启hive）、Greenplum | #### Redshift数据目的地增加S3写入目录配置项 ![](https://box.kancloud.cn/1a1b364320c7f16cb9b0749e9ba43e4e_1278x1238.png =360x) ## 2018/11/1 Version 2.2.5 ### 新功能点 #### 数据源Mysql，读取模式为Binlog模式时，支持用户动态加减表 * 任务激活后，任务详情页→配置规则页面→同步列表，显示【编辑】按钮 * 用户可以点击编辑按钮进行同步列表加减操作 * 完成【保存】后，要求系统即可按照新的同步列表进行同步。 #### 数据源Mysql，读取模式为Binlog模式时，支持用户重新同步表全量数据 * 概览—同步表详情，增加多选项和重新同步按钮 * 任务只有处于进行状态时，支持用户勾选重新同步的表，重新同步被激活 * 数据任务会暂停增量数据同步任务，将会优先同步点击【重新同步】对应表的全量数据。 ## 2018/10/10 Version 2.2 ### 新功能点 #### 元数据管理增加业务元数据 * 用户可以查看添加表和视图级别业务元数据信息 * 用户可以编辑表和视图基本信息 * 包括安全级别、数据是否可用、描述以及标签 ![](https://box.kancloud.cn/0df4b32e1c6af2c28d55f9c366e574a4_1292x390.png =360x) * 用户可以编辑表和视图的表结构信息 * 用户可以添加表列名 ![](https://box.kancloud.cn/3793826240cbccacb004a75f7ec244f3_1593x308.png =360x) * 用户可以编辑标签 ![](https://box.kancloud.cn/54de44f0b1d14a11356fd9f552d55177_1230x448.png =360x) * 支持业务元数据导入功能 ![](images/loadimage_1537352260986.png =360x) #### FTP文件同步到HDFS * 新增文件源FTP * 点击新建文件源，选择【FTP文件】进行操作： ![](https://box.kancloud.cn/82a118f3f16ee33ca1dd4f8ae1f0dd49_2880x1800.png =360x) * 配置完成，连接成功后该文件源即可用于文件任务。 * 支持FTP文件源到文件目的地HDFS #### 数据源增加标签功能 * 支持用忽添加标签，最多可添加20个 ![](https://box.kancloud.cn/9bb52ec5a8a004560e826a4ef6627371_1440x1100.png =360x) #### 元数据管理增加FTP和S3数据源 * 总览列表增加FTP和S3数据源 * 用户可以查看FTP和S3数据源详情 ![](https://box.kancloud.cn/83bf69fa30ec0bc0e47d305114ff4b81_1440x1136.png =360x) * 点击目录，可以查看该目录下文件的技术元数据、业务元数据、样例数据。 * 当数据源为动态表结构，点击数据源展开按钮，显示该文件系统（或S3）数据源下最长子目录。 ![](https://box.kancloud.cn/430b037d3a1debb47d339eba6727610c_634x480.png =360x) #### 元数据管理增加【新建数据源】入口 * 总览列表增加【新建数据源】入口 * 支持新建MySQL、SQL Server、Oracle、PostgreSQL、FTP、S3等数据源，逻辑与新建任务添加数据源一致 #### 技术元数据增加标度和精度 * 表技术元数据表结构中SQL类型的数据源，要求任意表结构增加精度和标度两列 * 用户可以在表结构查看表结构字段名称、字段类型、精度、标度、Not Null和Comment ### 优化功能点 #### 元数据管理搜索功能 * 顶部搜索入口增加增加搜索标签名称 ![](https://box.kancloud.cn/e26a8b2f7cf33ee1181f5c37d308b0ac_1440x900.png =360x) * 筛选功能-支持筛选数据源和标签，可同时筛选 ![](https://box.kancloud.cn/8aa3d1a3539ac7a8d2fd739ec3fbe126_1440x1000.png =360x) * 支持搜索对象数据源、表和视图，三者可相互切换 * 数据源、表和视图均增加标签列 ![](https://box.kancloud.cn/aacab94f9681cb4f21402f0a8952d063_1440x1000.png =360x) ![](https://box.kancloud.cn/2b8d9c1f89dd77996b0760346433ddf4_1440x1000.png =360x) #### 文件系统数据源和目的地调整为FTP数据源和目的地 * 弃用本地文件系统数据源，只支持FTP文件系统数据源 * 调整了log样式 ![](https://box.kancloud.cn/5feca306a3f51474967d481b30edc93d_533x172.png =360x) * FTP数据源动态表结构支持到FTP、Kafka和HDFS目的地。 ## 2018/9/12 Version 2.1 ### 新功能点 #### Hive目的地 * 点击新建数据目的地，选择【Hive】目的地进行操作： ![](https://box.kancloud.cn/1d64faf81256a3f3c38fc3326b0783f1_1218x1182.png =360x) * 配置完成，连接成功后该数据源即可用于数据任务。 * 开启Hive后，支持用户在配置规则界面进行高级设置，高级设置可以用于设置时间分区，以完成数据清洗。 * 支持用户开启或者关闭时间分区 * 用户开启时间分区后，用户可以设置Wallclock、Record、Recordfield等三种时间分区类型。 * 支持用户设置path.format，可添加多个 * 支持用户设置时间间隔,可设置天、小时、分钟 ![](https://box.kancloud.cn/c61252e1ca167de0f27dbd9bff0cb20b_2710x1606.png =360x) * 用户选择Recordfield分区类型时，可以设置分区字段 ![](https://box.kancloud.cn/8a3fa78af29e5b13ee4457aede568e7b_2692x1600.png =360x) ## 2018/9/3 Version 2.0.5 ### 新功能点 #### S3数据源 * 点击新建数据源，选择【S3】数据源进行新建操作： ![](https://box.kancloud.cn/433f5d2ae47f13b80cacd7e0b364a8ad_1208x1494.png =360x) * 配置完成，连接成功后该数据源即可用于数据任务。 #### 文件同步 * 新增文件同步功能，用户可以同步数据文件到目的地。 * 目前支持的文件源有S3文件源 * 新建S3文件源 * 点击新建文件源，选择【S3文件】进行新建操作： ![](https://box.kancloud.cn/798a9d9aacb951168f334a29933d5de9_1212x1058.png =360x) * 目前支持的文件目的地有HDFS文件 * 新建HDFS文件目的地 * 点击新建文件目的地，选择【HDFS文件】进行新建操作： ![](https://box.kancloud.cn/cdb5a90d7ae6ff34be9c542c1a9f63c1_1224x906.png =360x) * 新建任务页，选择数据源和目的地，进行任务设置 ![](https://box.kancloud.cn/921de2890add3f236276720eb7c6d5b7_2626x1314.png =360x) * 任务激活页，任务设置完之后，点击立即激活任务即将开始运行。 ![](https://box.kancloud.cn/e91e994d4c524e84d9360f0baaa88d8c_2586x1546.png =360x) * 任务管理页，激活之后，可以查看任务的运转情况。 ![](https://box.kancloud.cn/f4c0e4dd71d50506944757b8f18a8d07_2608x1580.png =360x) ## 2018/8/13 Version 2.0 ### 新功能点 #### 显示与修改目的地字段类型、长度、精度和Not Null &支持增减字段 1、数据源表结构： * 数据源为SQL类型数据库 * 显示数据源表名称、字段名称、字段类型、长度、精度、Not Null、主键 * 数据源为文件系统 * 显示字段名称。 2、数据目的地表结构： * 数据目的地类型：SQL类型数据库、或Redshift * 显示目的地表名称、字段名称、字段类型、长度、精度、Not Null 、主键 * 数据目的地类型：文件系统 * 显示目的地文件名、字段名称 * 数据目的地类型：kafka * 显示：Topic名称、字段名称、字段类型 * 支持修改目的地字段类型(包括主键） * 支持修改长度、精度、Not Null * 支持修改主键，目的地可设置多个主键。 * 支持删除目的地字段 * 支持新增目的地字段 3、关于自增_id需求变化 * 当数据源表没有主键字段，或数据源为文件系统： * 目的地为SQL类型（MySQL、Oracle、SQL Server、Redshift），目的地表结构首行默认添加_id字段作为主键，_id作为主键可去重目的地重复数据。 * 支持用户编辑和修改_id作为主键的功能，用户可选择其他的字段作为主键。 ![](https://box.kancloud.cn/d7400443ef12d37347a3a6676de08375_2880x1800.png =360x) #### 数据源变化后表结构更新 1、数据源删除正在同步的表 * Table list界面该表显示为划线状态，并标注已删除 ![](https://box.kancloud.cn/81ed0f07427ffd44038d70a2b3275f1f_2500x990.png =360x) * 任务激活前，修改目的地字段表结构更新 * 任务激活前，用户已删除该字段的同步。 * 连接线要求被断开 * 目的地字段区域为空 * 字段要求被忽略 * UI与字段正常同步无区别，只是【同步】列按钮设置为关闭 2、同步的表字段被删除 * Table list界面发生变化的表名后面标注已变更， * 数据源表对应字段显示为划线状态，并标注已删除 ![](https://box.kancloud.cn/cc9266c1394aaffd263fff85575731cd_2482x924.png =360x) * 若用户选择传空值或暂停数据任务 * 数据源字段标记为已删除，其他UI无变化。 * 若用户选择删除目的地字段 * 数据源字段标记为已删除 * 连接线断开 * 目的地字段区域为空。 3、同步的表发现新增字段 * Table list界面发生变化的表名后面标注已变更 * 数据源表对应字段在后方提示为新增状态 ![](https://box.kancloud.cn/63124f56cb3a966b1bbc677c54d80f03_2466x674.png =360x) * 若用户选择继续同步该字段。 * 数据源字段标记【新增】提示 * 连接线连接数据源和目的地 * 若用户选择【忽略新增字段】 * 数据源字段标记【新增】提示 * 连接线断开 * 目的地字段区域为空。 #### 产品激活码到期提醒 DataPipeline会以邮件的形式通知用户产品即将到期的信息，以方便用户及时更换激活码，避免任务被暂停。 ![](https://box.kancloud.cn/a06868aeaec2e888d4be72659493d125_2000x936.png =360x) * 到期10天/7天/3天前10点钟向用户发送邮件，通知用户及时申请新的激活码。 ### 优化功能点： #### 元数据管理-总览列表-新增搜索功能 * 搜索范围：数据源名称、用户名或Schema、表名称、视图名称 ![](https://box.kancloud.cn/b3c680831401aeba2e143651f98b5901_1439x1100.png =360x) #### 文件系统数据源迭代 1、数据源为文件系统-CSV格式（静态表结构） * 新增输入表结构区域 * 支持用户输入表头名称，多个用英文逗号分隔 ![](https://box.kancloud.cn/cb4e434bf90c90f899c3e9f41ff252be_2880x2304.png =360x) 2、当数据源为文件系统-本地时 * 目录一项：显示其根目录（比如默认是：/data/则直接根据后端配置显示出来）。 * 支持用户输入相对路径，允许为空 ![](https://box.kancloud.cn/056a9502edd8e81066e40b4d2fbaf908_1286x1204.png =360x) #### 选表界面优化 1、用户选择表和视图，增加提示文案：已勾选表xxx项，视图xxx项。 ![](https://box.kancloud.cn/61b4148a6525805ccccb920baf49ee9d_1440x900.png =360x) #### 数据字典修改为元数据管理 ![](https://box.kancloud.cn/cbedf9fb4d0b72041a9685037ed6454c_2648x802.png =360x) #### 数据源变化文案修改 1、同步的表字段被删除 * 继续同步，该字段传空值修改为继续同步，目的地该字段传空值（默认） * 删除目的地该字段，并继续同步修改为继续同步，目的地该字段被删除 2、同步的表发现新增字段 * 忽略新增字段，按原始表结构同步修改为继续同步新增字段（默认） * 按照新的表结构进行同步修改为忽略新增字段 3、已同步的数据在数据源被删除 * 忽略，不对数据目的地数据进行删除操作修改为忽略，数据目的地数据保留（默认） ## 2018/8/3 Version 1.9.6 ### 新功能点 * 新增TIDB 点击「新建数据目的地」，选择「TIDB」进行新建操作： ![](https://box.kancloud.cn/62a7e592f66ee72c034f05542d611f6f_1206x1076.png =360x) * 新增Greenplum 点击「新建数据目的地」，选择「Greenplum」进行新建操作： ![](https://box.kancloud.cn/5f2e829df28177d764f07c0352dbf7ca_1216x1288.png =360x) ### 优化功能点 * 数据源权限优化 * 最新策略：DataPipeline会逐步校验DB、Schema、table是否有select和view change tracking/logminer/wal2json或decoderbufs（PostgreSQL）权限，如果没有此权限则无法支持CDC方式读取增量数据（实时同步）。例如，当部分表未开启Change Tracking时要求： 1、显示该表名称 2、要求置灰，无法勾选 3、鼠标移动到该表名称区域，要求提示：未开启Change Tracking ## 2018/7/12 Version 1.9.5 ### 新功能点 * 新增复制任务功能 1.打开数据任务详情页后，点击任务名称右侧复制按钮后复制一个该任务。 ![](https://box.kancloud.cn/03bb1fcc3d15c90e9d16f8f55dc7fd23_2474x1534.png =360x) 2.不论原任务何种状态，复制后的任务均为未激活或去完善的状态，允许用户点击编辑，修改任务名，配置信息等 3.复制的数据任务创建人和时间以实际操作者和操作时间为准 4.不复制任务概览信息、消息记录和错误队列等任务运行后相关记录 * 文件系统远程-数据源、目的地支持本地和远程读取写入 * 配置文件系统数据源 * 若选择Log4j格式的数据源，操作如下。 ![](https://box.kancloud.cn/b76b6379b58d97cd22a5a3134c25f00f_1210x998.png =360x) * 文件位置：支持本地和FTP协议两种。 * 若选择CSV格式的数据源，操作如下。 ![](https://box.kancloud.cn/18de742fb55ce50aeb48f4d791fdd308_1206x1180.png =360x) * 文件位置：支持本地和FTP协议两种。 * 配置文件系统数据目的地点击「新建数据目的地」，选择「文件系统」进行新建操作： :-: ![](https://box.kancloud.cn/fea1ee5f8e44aae6a7ac704a1966f051_1216x996.png =360x) * 文件位置：支持本地和FTP协议两种。 ### 优化功能点 * 目的地表结构显示目的地实际字段类型 1.当数据源为：MySQL、SQL Server、Oracle、PostgreSQL时：目的地Redshift、Oracle、SQL Server、MySQL要求按照数据目的地真实的字段类型进行展现。 ![](https://box.kancloud.cn/fe4d004a3d39000721a377e4b41ea22d_2492x1598.png =360x) 2.当目的地为文件系统（HDFS、CSV、Kafka）时，目的地的字段类型显示为String。 ![](https://box.kancloud.cn/c62e6d087854716ab8468bd4718cba8b_2492x1586.png =360x) 3.当数据源和目的地数据库类型为同一个：要求字段类型（包括长度和精度）保持一致。 ![](https://box.kancloud.cn/9ca6c93f4e104be165e453680e57fd8e_2466x1584.png =360x) * 错误队列操作记录 :-: ![](https://box.kancloud.cn/0cb909dba4b646b40c2d655f28b8d1ca_2436x824.png =360x) * 用户点击导出后， * 消息列表提示：“xxxxx导出了错误队列的数据。” * 若失败，则在通知中心和消息列表中告知用户：“该项操作失败，请重试。” * 点击重试后， * 消息列表提示：“用户重试了错误队列的数据传输。” * 若失败，则在通知中心和消息列表中告知用户：“该项操作失败，请重试” * 点击忽略后， * 消息列表提示：“用户忽略了错误队列的数据。” * 若失败，则在通知中心和消息列表中告知用户：“该项操作失败，请重试。” 4.前端轮询逻辑优化 * 要求错误队列概览的数字和下方全选的数字一致 * 前端轮询保持和现在一致 * 文件系统远程-数据源、目的地支持本地和远程读取写入 * Drop Table模式改为delete或truncate * sink 1. 将数据从kafka中先写入一张临时表table_abc_tmp 2. 将临时表的数据复制到目的地表，insert into table_abc select * from table_abc_tmp ## 2018/6/29 Version 1.9.0 ### 新功能点： * 新增数据字典功能 1.用户可以在数据字典查找所有已创建的数据源详情。 2.用户可查看各个数据源下的表和字段的技术元数据。 3.用户可查看每张表的数据样例。 * 用户可以通过筛选功能搜索查询数据源/表/视图。 :-: ![](https://box.kancloud.cn/708c2849d814ee9cffdbd201a6b22764_1454x702.png =360x) * 用户可以点击查看总览，查看所有的数据源以及数据源下的表和视图技术元数据。 :-: ![](https://box.kancloud.cn/51301412005a213c8001f100a277b80c_2400x1506.png =360x) * 用户可以在搜索结果页通过筛选功能，筛选数据源类型和创建人来查询数据源/表/视图。 :-: ![](https://box.kancloud.cn/88e616f680f0bbe097f271bb7c765183_2440x748.png =360x) :-: ![](https://box.kancloud.cn/184acec40ef6ecb274afc30ffe3bfc92_2424x1390.png =360x) * 支持用户点击任意搜索结果查看数据源/表/视图详情。 :-: ![](https://box.kancloud.cn/c85ec77000ea28c19cfb874f053b0af7_2426x1510.png =360x) * SQL类型数据view展现与同步。 * 用户在同步内容时，增加视图的展现与同步，页面展现tables和views。 * 当用户选择SQL类型的数据源，并且在读取数据方式上选择增量识别字段时，用户可查看和选择所需视图。 ![](https://box.kancloud.cn/8b94797cb5ac30b0e6bd91ae0b8986ea_1206x780.png =360x) * 当用户选择SQL类型的数据源，并且在读取数据方式上选择CDC时，用户可以查看视图名称但无法勾选。 ![](https://box.kancloud.cn/88cd6e2795ca007e9ed19647c7bc3827_1202x632.png =360x) ### 优化功能点： * SQL Server的数据源和数据目的地自定义Schema。 * 用户在创建SQL Server数据源时可以自定义Schema。 ![](https://box.kancloud.cn/9f42cb0505e5506dbf3faef831b912f7_1212x1320.png =360x) * 用户自定义Schema，可以输入多个Schema，用英文逗号分隔。 * SQL Server数据源显示Schema目录设置情况 ![](https://box.kancloud.cn/ef31be2f917d021550eeaef7c53a594d_1212x1078.png =360x) * 用户在创建SQL Server目的地时可以自定义Schema。 * 用户自定义Schema，只允许输入一个Schema。 ## 2018/6/8 Version 1.8.6 * SQL Server数据目的地 * 用户可新建SQL Server数据库作为数据目的地。 * 所有的数据源可同步数据到SQL Server数据目的地。 * 暂不支持高级功能-数据源变化部分（无法与设置数据源变化时的目的地操作行为，下个版本会支持）。 * 目前仅支持同步到SQL Server的默认Schema：dbo（下个版本可支持自定义Schema） * 优化文件系统数据源 * 文件系统的同步任务将视为全量数据的同步。 * 当系统扫描发现新增文件时会同步到数据目的地。 * 当系统扫描发现已同步文件的修改时间发生变化时，会重新同步到数据目的地，并覆盖旧文件。 * 修复v1.8.5存在的Bug ## 2018/5/24 Version 1.8.5 * 增加高级清洗功能 * 在配置规则界面，允许用户开启高级清洗功能; ![](https://box.kancloud.cn/8865e8303b57650929ca75164b0a785b_2422x1258.png =360x) * 支持用户输入或粘贴清洗逻辑，查看样例数据，并可以对清洗逻辑进行试运行； ![](https://box.kancloud.cn/635ec3eeb48066353e24714a30df696c_2526x1576.png =360x) * Couchbase 暂不支持高级清洗。 * 新增PostgreSQL数据源 * 支持wal2json、decoderbufs插件实时读取模式； * 支持增量识别字段定时读取模式。 ![](https://box.kancloud.cn/cc774dea0976c065f9e282ac0644caaa_516x186.png =360x) * 优化消息记录 * 现在每次发起操作请求时，就会记录该条信息进入消息列表； * 若该操作失败，将在消息列表提示用户操作失败； * 任务的错误信息将尽可能提供详细信息例如具体发生错误的数据表信息等。 * CSV数据目的地优化 * 现在将显示数据写入路径，例：`/data/任务ID/user/`。 ![](https://box.kancloud.cn/68902c211ca64e425c77c953d46787d5_1268x642.png =360x) * 支持设置读取条件 * 用户在配置规则页面，可以针对每个数据表设置读取条件； * 设置后任务将有条件性的读取数据。 ![](https://box.kancloud.cn/b56f4f6722f05e5a52c337039b570588_2424x898.png =360x) * 优化首页加载速度 * 现在首页将优先展示基本信息，异步加载进度信息； ![](https://box.kancloud.cn/3f164ecb4b1d186ea8195215a0d1c11f_1484x666.png =360x) * 新增数据源变化设置 * 在任务设置-高级设置中，用户可对数据源变化做出详细的配置； * 数据源变化包括有： * 数据源删除正在同步的表； * 同步的表字段被删除； * 同步的表发现新增字段； * 已同步的数据在数据源被删除。 * 当数据源发生相应变化时，数据任务将按照用户的设置暂停或继续同步任务。 ![](https://box.kancloud.cn/a0602b0acf6fa78ea49be1e4f7321ef9_2470x1112.png =360x) * 界面文案等细节优化 * 最新更新时间显示位置移到最右侧； * HDFS数据目的地的目录提示文案优化； * 数据任务主页底部增加了当前版本信息； * 「Schema」一词根据实际应用场景替换为更加精确的表述; * 数据任务概览页面，最近同步时间位置优化； * 文件系统取消增量数据概念。 ## 2018/4/16 Version 1.8.0 * 优化任务创建流程 * 增加任务名称限制长度； * 新建 MySQL、Oracle、SQL Server 数据源优化： * 现在新建时除验证数据源连接以外还将检验数据源版本、权限等信息； * 数据源详情将对应展示数据源的版本、权限信息以及支持的读取模式； * 点击数据源详情页的重新连接，系统将重新按照配置内容重新连接数据源检测各个信息。 ![](https://box.kancloud.cn/fed0f3b79b799e8e2cd45b0385a26edd_1222x1074.png =360x) * 增加任务设置流程： * 参与人设置： * 参与人能够浏览、编辑该任务，并受到该任务相关通知； * 增量数据读取模式设置（支持 MySQL、Oracle、SQL Server 数据源）； * 数据读取、写入设置，包含： * 读取并发数、读取速率限制； * 写入并发数、写入速率限制。 * 高级设置： * 错误队列设置：支持设置错误队列预处理行数，错误率阈值等； * 邮件设置：支持勾选需要邮件通知的信息。 ![](https://box.kancloud.cn/aff087923eb6ba2434a923c87984e9e6_2880x3498.png =360x) * 增加同名表检测 * 选择完同步表后，将实时检测表名称是否符合目的地表名称要求； * 若存在同名表将会提示用户「目的地已存在同名的表」； ![](https://box.kancloud.cn/c278d868f1f7df01cd4365949f8eb6bd_1136x366.png =360x) * 目的地为Kafka的任务，将检验目的地是否已经存在的Topic名称，若不存在将提示「Topic名称不存在」 ![](https://box.kancloud.cn/b5a6e3e7c2170c411ee2d854aa001358_1020x246.png =360x) * 数据任务详情页增加任务设置Tab * 支持用户随时对任务设置进行修改。 * 邮件通知界面优化，优化阅读体验 ![](https://box.kancloud.cn/f37539be794b33f2e4344176aafbc316_1504x950.png =360x) * 优化数据表更新逻辑 * 减少创建任务流程中的等待时间； * 尽可能保证用户看到实时的数据表结构。 * 优化数据任务搜索功能 * 提供多个标签项，允许用户点击标签项后再进行关键词搜索，提高搜索效率。 ![](https://box.kancloud.cn/dbf7f1117ec1e2268c245f1aa43b0a29_960x498.png =360x) * 优化错误通知 * 部分错误信息提供查看原始error code的入口； * 在通知中心、消息列表或错误提示内点击查看详情即可查看错误具体信息。 ![](https://box.kancloud.cn/fb474d52ffee27b7ac0ccce6bc035bcc_1984x924.png =360x) * 优化数据源表结构用户名前缀 * 部分支持多用户名的数据源，在选表界面能够更加清晰地查看到各用户的数据表； * 增加提示，提高用户名与表名的区分度。 ![](https://box.kancloud.cn/07c726392253a1c422cea4db7c08278d_1288x1450.png =360x) * 优化错误队列时间选择 * 单独设置开始和结束时间； * 优化输入体验。 ## 2018/3/23 Version 1.7.8 * 搜索功能支持输入正则表达式。 * 选择同步表页面，用户可根据JavaScript正则表达式搜索相同命名规则的表，提高选表效率 ![](https://box.kancloud.cn/181840c3dfeb3a4634f5b66bf8b676aa_1616x754.png =360x) * 优化数据任务详情页统计数据准确性 * 修复数据任务同步过程中出现的异常问题 ## 2018/3/16 Version 1.7.7 * MySQL、Oracle、SQL Server 为源的数据任务支持表和字段名称修改 * 在任务创建过程时： * 支持对目的地表名称的自定义修改； * 支持对目的地表的字段名称的自定义修改； * 通过展开、收起源 Schema 快速查看数据源表和目的地表的映射关系。 * 此功能可以帮助用户把多个表结构一样的表同步到目的地同名的表，只需用户把几个表名称同样的表设置同一个目的地表名称即可（默认为数据源的表名称）。 ![](https://box.kancloud.cn/7fb92439641f2d78b6d1f907379305a6_2506x1356.png =360x) * 数据任务详情页也同步支持查看数据源和目的地的映射关系。 ![](https://box.kancloud.cn/4077977fbfb35048038c7b6987424506_2554x844.png =360x) * 数据任务详情页优化 * 优化原有的数据任务详情页样式，丰富内容，提供更多与任务相关的图表、速率等信息； * 数据同步量分为全量数据和增量数据进行统计； * 提供读取速率、写入速率、已完成数据量等数据信息； * 允许用户对概览页的数据单位进行切换； * 提供新增数据量和同步速率的数据图表，可视化呈现任务同步状态； * 通知消息直接呈现于概览页面，快速查看关于本任务的最新消息记录； * 数据任务详情页的错误通知窗口不再显示，错误通知等消息均消息列表中查看，报错信息增加技术支持按钮，点击后可以对该条错误申请技术支持； * 各数据表提供更多的速率和同步信息，方便用户对于单表进度的观察。 ![](https://box.kancloud.cn/6dbf577055e64b6a85fa876fd6cb4b88_2880x3840.png =360x) * 数据任务主页优化 * 数据任务列表的错误通知窗口不再显示，所有的错误通知消息均可在通知中心或数据任务的消息列表中查看。 * 数据任务卡片中任务的状态UI更新，采用和数据任务详情页一致的统计状态。 ![](https://box.kancloud.cn/27888636d0adc1ec2026b575cd3fe730_2560x1586.png =360x) * 错误队列处理新增重试功能 * 支持对错误内容进行单条或批量重试操作； * 重试操作将重新尝试向目的地传输保存在错误队列中的数据。 ![ ](https://box.kancloud.cn/208f8034c35795c34e10841e9f993d72_2472x1034.png =360x) ## 2018/3/2 Version 1.7.6 * 增强增量识别字段勾选的提示 * 定时模式的任务将在Schema列表明显位置提示用户选择增量字段； * 若对所有Schema选择增量识别字段，保存时将会再次提醒用户。 ![](https://box.kancloud.cn/986746fded96acc92c83d77a40a40b29_1294x644.png =360x) * 支持选表过滤配置文件 * 支持自定义编写配置文件对数据源的数据表进行白名单过滤。配置成功后，用户选择对应数据源时，只会显示过滤后的数据表，提高选表效率。 * 优化速度进度性能 * 现在能够更加准确的显示任务的实际读取速率。 * 修复bug * 修复logminer 在数据被更新后立即删除下不能正确同步的问题。 * 优化任务停止重启时候的报错机制。 * 修复在系统压力巨大的情况下会丢失数据的问题。 * 修复了 Oracle 不能正确找到小写表名表的问。 ## 2018/1/28 Version 1.7.5 * 无主键表同步的支持 * 现在支持选择无主键的数据表并进行同步，增加了数据同步的使用场景。 * 任务调度系统优化，支持更多表的同时同步 * 支持单任务上百张表进行同时同步，优化调度避免任务崩溃的情况出现。 * 提供配置说明和同步规则 * 新建数据源/目的地和选择同步Schema时，会在页面提供详细的规则说明，协助更好地理解并使用平台。 * 修复bug * 修复Oracle的Interval类型映射问题并取消sink的drop column逻辑。 * 修复Oracle数据源表不存在会报错，并不断重启的问题。 * 修复CSV-CSV同步时速率较慢的问题。 ## 2018/1/24 Version 1.7.4 * 支持联合主键 * 现已支持同步由2个或2个以上的字段组成主键的数据表。保证数据目的地的数据表主键结构和数据源结构一致。 * 优化任务状态的获取 * 所有状态的任务现在都会不断轮询最新状态，严格保证数据任务在平台界面展示的状态和实际后端运行状态一致。 * 优化Oracle写入速度 * Oracle sink 端的临时表与主表，调整为 nologging 模式，并且在应用程序代码所调用的 SQL 中指定了并行追加的执行计划，提升 sink 端数据库服务器的 CPU 使用率，提高了50%的写入速度。 * 优化表结构更新 * 数据源表结构发生变化后，平台在更新表结构时，将检查表是否存在主键，不存在主键的表能被正确显示（无法选择，提示用户该表不存在主键）。 * 修复bug * 修复 Oracle Logminer 不能正常同步数字的问题。 * 修复 SQL Server 不能正确处理数据源删除事件的问题。 * 修复 Oracle 数据源 Raw 类型字段作为主键无法同步的问题。 * 修复 Mysql 数据源仅有主键的表无法同步到 Oracle 并进入错误队列的问题。 * 修复任务无法正确删除，删除超时后自动重启报「读取数据任务配置失败」的问题。 * 修复删除任务未清空对应任务的错误队列的问题。 * 修复数据任务无法正常显示操作记录的问题。 ## 2018/1/5 Version 1.7.3 * FTP数据源（远程文件系统） * 支持远程文件系统为数据源，定时同步文件数据。 * 支持动态Schema的文件传输。以每个文件的首行作为表头作为Schema进行传输，可支持每个文件的表结构不同的情况。 * 产品优化 * 增加错误队列类型，帮助用户更快的定位进入错误队列的原因。 * binary double类型主键的Oracle数据源，同步到Mysql的sink会报出「主键类型长度过长」的问题。 * Oracle数据源的长度精度识别问题。 * 优化部分任务速率不准确的问题。 * 新建任务点击下一步后的检验链接过程中不允许进行任意操作。 * 优化错误通知「主键类型过长」的问题。 ## 2017/12/20 Version 1.7.2 * 新增通知中心 * 现在有了统一的入口用于浏览所有的错误通知和其他消息。 * 优化错误通知的浏览方式，为数据任务列表页添加其他信息流出空间。 * 用户可以在通知中心快速切换所有通知与未读通知，并将他们标记已读或清除。 * 点击错误通知可以前往对应的数据任务页面查看具体信息。 ![](https://box.kancloud.cn/302be368262f6a5800809b9012e24d84_528x1692.png =360x) * 新增错误队列预警功能 * 当数据任务的错误队列不为空且到达一定数量时，会第一时间在通知中心提醒用户任务存在错误队列，让用户快速了解数据任务的错误情况。 * 根据设定的不同阈值，错误队列的错误率达到对应值时会对数据任务采取不同的预警方式，包括对任务的暂停等，防止过多错误的产生。 * 任务采取预处理机制，保证错误率的平均度，同时保证低数据量的任务的正常运行。 * 错误队列数量达到上限时，系统会暂停产生错误的任务，防止平台溢出崩溃。 * 新增错误队列处理功能 * 支持在错误队列页面查看错误内容来源、错误产生原因等错误内容的详细信息。 * 提供错误队列的基本处理功能，目前提供了对错误内容的导出和忽略。 * 支持对错误内容的单选、多选、全选并进行批量操作。 * 丰富筛选功能，提供对表、错误类型、时间段的筛选及关键词搜索。 ![](https://box.kancloud.cn/f3e2e4f9b24cf7fdbe62be8fc69bb973_2236x1362.png =360x) * Couchbase支持输入Bucket密码 * 在Couchbase为数据源的数据任务编辑过程中，支持输入Couchbase的Bucket密码让平台能够成功读取数据。 ![](https://box.kancloud.cn/6635bb762e38b06169629e4e77ea89fa_2462x1160.png =360x) * 修复bug * 修复logminer读取模式下间隔报错的问题。 * 修复点击技术支持会不断报错的问题。 * 修复消息记录无法加载更多的问题。 * 选择完数据源和目的地点击下一步的过程中不再能够对现有内容进行更改防止误操作。 * 优化了空场景的提示文案 * 数据任务没有错误内容时现在会正确显示：“错误队列为空”。 * 通知中心没有未读通知是现在能正确提示：“无未读通知”。 * 错误队列中无效信息删除优化。 ## 2017/12/4 Version 1.7.1 * Oracle数据源采用LogMiner技术 * LogMiner是Oracle数据库提供的一个工具，它用于分析重做日志和归档日志所记载的事务操作。 * 现在您在新建Oracle数据源时，读取模式选择为实时处理时，将采用LogMiner技术对数据源进行读取操作。 ![](https://box.kancloud.cn/cc96cb76cd9fd0f667972d59b8ea34c3_1092x1136.png =360x) * LogMiner部署轻便、调试简单，且该工具完全免费。 ## 2017/11/20 Version 1.7.0 * 新增Couchbase数据源 ![](https://box.kancloud.cn/ee42b8f0f003cdef11f41f80478271d7_514x194.png =360x) * 新增Kafka数据目的地 ![](https://box.kancloud.cn/913eff5933cdf469d0eb5456e2d0bfb7_508x186.png =360x) * 优化数据任务对数据库的连接性能 * 使用了hikari连接池限制了同时与同一个数据库的最多连接数。 * 以此避免同步每张表都建立一个新的连接。 * 优化同时同步大量表的处理能力。 * 支持用少量固定线程同时同步三百张表。 * 一个数据任务可勾选三百个以上的表作为数据读取对象。 ## 2017/11/13 Version 1.6.9 * 优化了编辑中任务被激活后的操作逻辑： * 当该数据任务已被激活，当您再次修改SCHEMA配置点击保存时，将在右上角提示“SCHEMA所属数据任务已激活，无法编辑。” ![](https://box.kancloud.cn/6c9280d9c83a9fd85c1b2e11b7388281_2492x890.png =360x) * 若您未修改schema配置，点击保存后则会直接进入数据任务详情页，并展示数据任务当前的实际进度。 * 优化了提示文案，现在您可以更直观的看到操作对应的提示内容： * 包含数据任务、数据源/目的地的提示文案都统一了格式。 ![](https://box.kancloud.cn/59a48d58767fbdde82f77454e602ddbb_692x308.png =360x) * 完成了csv数据源的压力测试和多样性测试。 ## 2017/10/31 Version 1.6.8 * **CSV为数据源的数据任务流程优化** * 用户在使用同一个类型为CSV的数据任务时，可选择历史相关数据任务的Schema，无需重新设置目的地Schema。 * 在目的地配置页面中，点击【导入Schema】，立即弹窗显示历史数据任务中使用同一个数据源的信息。 * 用户可根据数据任务名称、Schema名称、数据任务创建时间选择需要的Schema。 * 支持导入JSON类型文件来设置数据任务的目的地Schema。 ![](https://box.kancloud.cn/dc82b102924ce57ee75025a6f96befe4_1440x900.png =360x) * **优化：数据任务删除功能** * 当用户二次确认删除数据任务后，系统会后台处理删除请求。 * 系统完成删除任务后，会在页面右上方提示用户删除成功与否。 * 用户可继续操作其他任务，不需要在当前页面等待数据任务删除请求。 ## 2017/10/24 Version 1.6.7 * **优化：空场景UI** * 错误队列Tab和消息列表Tab数据为空，以及SQL类型数据库未选择表时的场景UI进行优化，界面更加简洁清晰。 ![](https://box.kancloud.cn/76ccf24ac9abff5da8cbc148c2c4c915_1440x900.png =360x) * **优化：空表处理** * 现在空表能够正确地显示进行状态，并且处理增量数据。 * **优化：分隔符** * 分隔符现提供常见的逗号和水平制表作为选项方便快速选择，同时也支持自定义输入， * 规范输入规则，为含空格字符串提供特殊说明避免歧义。 ![](https://box.kancloud.cn/c89a5d945ddfa920ba08fa8dfeb12a45_1440x1225.png =360x) * **修复Bug** ## 2017/10/13 Version 1.6.6 * **优化：同步表勾选页面优化** * 不存在主键的表将无法勾选，鼠标移动到勾选区域将提示：该表不存在主键。 ![](https://box.kancloud.cn/508a2fa8dff964f21daab850581064a4_1350x852.png =360x) * 新增搜索功能 * 点击搜索按钮，输入关键字进行搜索，系统根据关键字筛选表名称 * 用户可在搜索结果列表中，勾选对应的表。 ![](https://box.kancloud.cn/905296bc676376491a382300abb912db_1320x934.png =360x) * **优化：任务状态的设计与交互细节** * 统一了任务各个状态时的视觉细节，使得整体更加统一。 ![](https://box.kancloud.cn/23293236834327cc34d3a64a457e29e8_4000x1000.png =360x) ![](https://box.kancloud.cn/21b9588ef71151abbd62741bb3bd8c11_6112x420.png =360x) * **优化：错误提示** * 现在的错误提示将更加正确地反馈错误内容。 * **修复Bug** ## 2017/09/20 Version 1.6.5 * **优化：schema配置错误提醒** * **新增：schema配置的规则限制** * **修复Bug** ## **2017/09/08 Version 1.6.1** * **新增错误队列功能** * 可收集数据任务执行过程中所有数据相关错误，并提供给用户查看。 * 显示总错队列，并支持分表查询错误队列。 * 每个错误包括：Schema名称、错误类型、收集时间、原始数据 * 支持用户自定义时间段查询错误队列 ![](https://box.kancloud.cn/b30b3e50d70f44b6b1c6a5caf16026d8_1440x1045.png =360x) ## **2017/08/24 Version 1.6.0** * **新增数据目的地：AWS RDS** * DataPipeline新增了一个数据目的地，用户可以把数据源数据同步到数据目的地AWS RDS; * **修复Bug** ## 2017/08/17 Version 1.5.5 * **新增功能：允许用户删除已创建的数据源和数据目的地的** * 用户可在新建任务第一步，数据源和数据任务列表中点击【详情】，便可找到目标删除入口。 ![](https://box.kancloud.cn/313bd89648b06cdc3b40b331eb7d8280_670x488.png =360x) * 当目标被其他数据任务使用时用户点击“删除”按钮，会提示：其他数据任务证咋使用该数据源，无法删除。用户需要删除所有与该目标相关的数据任务，才可以删除。 ![](https://box.kancloud.cn/494f01f2c064ca8af0add8d9ea168b8a_664x95.png =360x) * **数据源和数据目的地Schema独立** * 从本版本开始，每个数据源在被同时多个数据任务使用时，系统会根据目的地创建独立的数据目的地Schema，每个数据任务可拥有唯一的Schema。简而言之，一个数据源可在不同的数据任务里按照不同的Schema结构同步数据到目的地。 ## **2017/07/28 Version 1.5.0** * **新增数据目的地：CSV、Oracle、S3** * DataPipeline新增了三个数据目的地，用户可以把数据源数据同步到数据目的地S3、Oracle，还有CSV ![](https://datapipeline.kf5.com/attachments/download/3829268/001597eaa1a01ae201b7a1cccf7e381/?filename=image.png "image.png" =360x) * **支持删除数据源与数据目的地** * **修复数据任务创建流程中的交互优化** * **修复Bug** ## **2017/07/03 Version 1.4.0** * **新增：输入激活码功能** * DataPipeline用户可以数据激活码的方式延长产品使用期限，不需要DataPipeline工程师重新部署产品或更新产品版本。 ![](https://datapipeline.kf5.com/attachments/download/3708742/0015959aa45cb8a9e7d424ffb90fe42/?filename=image.png "image.png" =360x) * **优化：DataPipeline用户界面细节** * 更新产品新logo到DataPipeline * 搭配新logo，调整产品主色调 * 优化错误通知处理方式，让用户更方便地处理每个数据任务的错误通知 ![](https://datapipeline.kf5.com/attachments/download/3709019/0015959b371f17bf2e98c437dcd92ea/?filename=image.png "image.png" =360x) ## **2017/06/16 Version 1.3.5** * **新增：消息列表** * 数据任务增加【消息列表】功能，可在数据任务详情页【消息列表】Tab下找到。 * 可查看每个数据任务发生事件，包括：激活、暂停、重启、错误通知、错误通知操作。 * 每个消息显示：操作人、信息详情、发生时间。 ![](https://datapipeline.kf5.com/attachments/download/3647020/00159438ab90d2a9aba9add915eb587/?filename=image.png "image.png" =360x) ## **2017/06/09 Version 1.3.0** * **新增：用户权限2.0** * 管理员可添加小组，并划分用户到各个小组。 * 用户只能浏览、编辑同一个小组用户创建的数据任务、数据源、数据目的地。 * 用户无法浏览其他小组用户创建的任务信息。 * 只有数据任务创建者与管理员可以删除数据任务。 * 删除小组，该小组下的用户会自动移到公共组。 ![](https://datapipeline.kf5.com/attachments/download/3619816/001593a3f26108e49486fb00586a01c/?filename=image.png "image.png" =360x) ## **2017/06/06 Version 1.2.0** 最新版本着重解决了DataPipeline的交互问题，包括： * 数据任务列表的错误通知样式、任务卡片提示信息与按钮样式。 * 优化新建数据任务第一步提示功能：当有问题时，用户更加清楚地了解到是哪一块需要修改。 * 在Schema设置页面，用户可浏览相关数据源与数据目的地详情。 * 在Schema设置页面，字段详情列表改为平铺交互方式，减少了用户手动设置Schema的成本。 * 优化数据任务详情页交互方式，把更重要的数据任务状态、速率等信息放在更重要的位置。 ## **2017/05/31 Version 1.1.5** * **新增：数据目的地Kafka** * 用户可以建立数据任务把数据源数据同步到Kafka数据目的地。 * **新增：数据目的地TiDB** * 用户可以建立数据任务把数据源数据同步到TiDB数据目的地。 * **优化：数据任务连接错误处理方式** * 当数据任务连接数据源或数据目的地时连接失败，除了系统自动发出错误通知，系统会不断尝试重新连接数据源或数据目的地。连接成功后，会发出恢复连接的通知。 ## **2017/05/11 Version 1.1.2** * **优化：DataPipeline错误信息用户体验** * 在配置数据源、数据目的地，管理数据任务时用更易懂的错误信息提升用户体验。 * 优化了错误信息和操作反馈信息的展现方式，让用户更好的理解当前任务情况。 * **优化：MySQL数据源到数据目的地的同步数据稳定性与速率** * 减少MySQL数据源任务异常情况发生概率。 * 提升MySQL数据源到HDFS、Redshift、Infobright等数据目的地同步速率。 ## **2017/05/02 Version 1.1.1** * **新增：DataPipeline试用版** * DataPipeline部署到试用企业的产品是试用版本，有效期为14天，客户需要在14天内试用DataPipeline并提出使用问题或试用问题。 ## **2017/04/21 Version 1.1.0** * **新增：错误通知【技术支持】按钮** * 用户收到错误通知后，若无法自己处理可点击错误通知中的【技术支持】按钮，系统会自动将错误详情发送给DataPipeline 工程师帮助用户解决问题。 * **优化：任务状态** * 任务状态更加准确的反映了当前任务执行状态，并且支持系统发现任务有错误信息时，用户可以自己操作暂停或重启。 * **优化：任务速率和进度** * DataPipeline支持同步数据源的全量数据（历史数据）和增量数据（实时数据），系统会实时提供当前任务同步速率。 * 任务在同步全量数据时，每个Schema的同步状态会显示剩余完成时间（指全量数据）。 * 任务在同步增量数据时，每个Schema的同步状态会显示当前正在同步的增量数据的产出时间。 ## **2017/04/11 Version 1.0.8** * **新增：SQL-Server数据源** * DataPipeline用户可以添加SQL-Server数据源。支持把SQL-Server数据库全量数据和增量数据实时同步到数据目的地（Redshift、HDFS、 Infobright）。 ![](https://datapipeline.kf5.com/attachments/download/3432658/00158f4613ead73407345b89a62ef37/?filename=blob.png "blob.png" =360x) * **优化Redshift数据目的地配置** * 用户配置Redshift数据目的地时，可以设置Schema来指定数据存放的位置。在配置过程中，我们会默认把数据同步到Public公共区，用户也可以根据自己的需求指定Schema。 ![](https://datapipeline.kf5.com/attachments/download/3432650/00158f460e97e661463ecbd7c2c51a1/?filename=blob.png "blob.png" =360x) ## **2017/04/11 Version 1.0.7** * **新增：Oracle数据源** * DataPipeline用户可以添加Oracle数据源。支持把Oracle数据库全量数据和增量数据实时同步到数据目的地（Redshift、HDFS、 Infobright）。 ![](https://datapipeline.kf5.com/attachments/download/3406281/00158eaf2eecdfd6556d8fefe7af313/?filename=blob.png "blob.png" =360x) * **修复Bug** * 提高数据任务的速率准确性。 ## **2017/03/30 Version 1.0.6** * **新增：帮助中心** * 用户可以在页面右上方看到【帮助中心】入口，可以浏览DataPipeline的使用说明，并且可以提出问题或评论。 ![](https://datapipeline.kf5.com/attachments/download/3389479/00158e45e2a8f0b169678b072924e3e/?filename=blob.png "blob.png" =360x) * **修复Bug** * 数据任务列表、数据任务详情页、用户管理页面提示交互。 * 用户管理遗留的问题。 ## **2017/03/24 Version 1.0.5** * **新增：用户管理功能** * 普通用户可向管理员申请添加账号后，可通过用户名或邮箱登录DataPipeline。 * 管理员可以赋予其他用户管理员权限或普通用户权限。 * 管理员可以对已创建账号进行冻结或解除冻结，避免无效账号登录DataPipeline。 * 数据任务详情页面中会显示数据任务、数据源、数据目的地的创建人的用户名，方便其他用户寻找负责人。 ![](https://datapipeline.kf5.com/attachments/download/3485079/0015909540a08192d2e5572f69a28da/?filename=blob.png "blob.png" =360x) ## **2017/03/20 Version 1.0.1** * **新增：错误通知功能** * 系统发现每个数据任务出现数据错误、系统错误、安全问题等，会第一时间通过邮件通知相关人员，并且在首页显示错误通知信息。用户可以点击查看详情后，针对错误信息进行操作。 ![](https://datapipeline.kf5.com/attachments/download/3485082/00159095428a705d77245afbb519407/?filename=blob.png "blob.png" =360x) ## **2017/03/15 Version 1.0.0** * **新增：数据任务列表** * 用户可以看到全部数据任务，可直接看到每个任务的任务名称，相关数据源和数据目的地名称，当前状态。点击即可查看该任务详细信息。 ![](https://datapipeline.kf5.com/attachments/download/3340828/00158d0d55353af96bfa885546ed784/?filename=blob.png "blob.png" =360x) * **新增：数据任务详情页** * 任务详情页中用户可看到该任务当前完成进度和详细的配置信息。 ![](https://datapipeline.kf5.com/attachments/download/3341332/00158d0e3fe6aed7f804138e9dfdf47/?filename=blob.png "blob.png" =360x) * **优化：创建任务流程** * 分三步：1.选择数据源和数据目的地 2.设置Schema 3.激活数据任务。优化了创建流程用户体验，帮助用户更方便的管理数据任务。 * **优化：创建数据源和数据目的地的方式** * 当用户在创建任务过程中没有所需的数据源或数据目的地，可以当前页面下添加数据源和数据目的地。此外，添加的数据源和数据目的地可以被重复使用。（注意：一个数据源只允许拥有一个Schema规则，点击[查看详情](https://datapipeline.kf5.com/hc/kb/article/1028795/)。）