v2.6.0 版本介绍 · DataPipeline产品手册2.7.0

[TOC] # DataPipeline v2.6.0版本介绍 **2019年8月5日** Version 2.6.0包括以下新增功能和优化。 ***** ## **新增功能** #### **1.一对多的数据同步** 详情见：[如何创建数据同步](创建数据同步.md) 当用户想要将一个数据源同步到多个不同的目的地时，可以选择多个数据目的地，从而省去了用户创建多个任务的麻烦，同时减少任务并发数量，节省操作时间，只需要读取一次即可完成到多个目的地的分发。 ![](https://img.kancloud.cn/b3/30/b3306a9a9f55afe6ac1670254d15a431_712x368.png) #### **2.动态限速和传输队列限制** 详情见：[如何进行任务设置](rwsz.md) 在进行数据同步任务时，有时读取速率远大于写入速率，那么**已经被读取但还未写入**的数据会暂时存储到队列中，但该队列的存储空间有限，当数据已被读取而未被写入，队列存储空间已满时，就会造成数据的丢失。在该版本中提供了解决方案： * 可以在任务设置中对数据源设置的【传输队列最大缓存值】和【传输队列回收时间】根据业务数据量进行合理设置，使得队列缓存大小可以满足业务数据量大小 ![](https://img.kancloud.cn/bc/98/bc9817814fe2e702a955105d61677d06_1029x233.png) * 除此之外，该版本还提供了【数据任务动态限速】的功能，用户可以开启该功能，当队列满时，进行数据读取限制，以保证数据不会丢失，但会带来读写性能下降。 ![](https://img.kancloud.cn/4e/02/4e022651cfd8484a4834a4ddc5a5e478_1172x84.png) * **在读取设置界面，对于每个单表级别可以进行单独的传输队列的设置，该优先级高于任务设置。当用户进行了该设置，会优先使用表级别的传输队列设置；若部分表无此设置，则使用任务设置中的传输队列设置** #### **3.批量设置** 详情见：[如何进行读取设置](如何设置读取规则.md) 用户在进行读取和写入设置时，可能会需要对每个表进行批量移除、where语句设置和目的地表名设置等，当每个表操作相同时需要多次重复操作，过于繁琐。在该版本中，可以一次性勾选多个表，批量进行where语句和目的地表名的设置（当目的地为HBase时还包括Column Family设置） ![](https://img.kancloud.cn/29/a5/29a5929da50731fa094f906cd9bd35c7_292x248.png) ![](https://img.kancloud.cn/3a/a1/3aa1f06dd35c0561c52eced85396337c_292x263.png) #### **4.端到端一致性功能** 详情见：[如何进行任务设置](rwsz.md) 在数据同步的过程中，当出现暂停任务再开启后，可能会出现任务进度没有被记录的情况，从而导致数据丢失或重复的问题。该版本提供了读取端和写入端的【事务一致性】选项，开启后，系统会准确记录任务进度，保持数据源和目的地的一致性。 ![](https://img.kancloud.cn/fe/63/fe638e5c435599dd283e949ad76dd0b0_1189x83.png) ![](https://img.kancloud.cn/98/90/98903ec707dcc10d177b8be2711822b0_1182x169.png) 除此之外，在批量读取模式下，提供【写入临时表】选项，将每批数据先写入临时表，本批次写完后再写入实际表，保证数据一致性。 ![](https://img.kancloud.cn/8e/f6/8ef68162d4e91e29352ef746c10be107_1178x88.png) #### **5.读取模式优化** 详情见：[如何进行任务设置](rwsz.md) 当用户选择批量模式，可选择增量识别字段进行增量数据的读取和写入，但一些目的地不能实现对数据唯一性的判断，就无法进行增量读取和写入，只能每批都重新写入，从而会造成数据重复。该版本在任务设置 - 数据目的地设置提供了【清除目标数据表数据】的选项，可以在每批数据写入前清除目标表，从而解决数据重复的问题。 ![](https://img.kancloud.cn/3d/cf/3dcf8abebb8f23519633873c13937657_1175x72.png) #### **6.批量设置读取条件** 详情见：[SQL类型数据源读取条件设置](数据源为SQL类型.md) 当数据源为SQL类型的数据源时，用户可以编辑不同的读取条件来进行数据的同步，在之前的版本中我们支持设置增量识别字段的方式来读取增量，但是要求选择的字段必须为可排序，例如数字或时间类型，推荐的字段类型一般为随数据更新而自增的字段。在本版中支持设置其他的字段作为增量读取条件。新功能解决的问题： 1\. 在关系型数据库作为数据源的情况下，允许用户针对每一个表设置WHERE读取条件，并提供lastmax方法。 2\. 使用该函数DataPipeline会取该任务下已同步数据中某一个字段的最大值，用户可以使用该值作为WHERE语句读取条件。 3\. 用户使用last\_max（）函数，在首次执行该语句或对应字段暂无数值时，则会忽略该函数相关的读取条件。 4\. 允许用户结合其他数据库提供的方法编辑读取条件： :-: ![](https://img.kancloud.cn/00/29/002917d682b5ccaa865494163ea4b30d_2880x1646.png =480x) #### **7.数据源腾讯云TDSQL** 详情见：[腾讯云TDSQL](chapter1/shu-ju-yuan/pei-zhi-tdsql.md) 新增数据源——腾讯云TDSQL，支持同步到目的支持的所有数据库。 #### **8.Oracle数据源支持Agent的实时读取方式详情见：[Oracle数据源设置](Oracle数据源设置.md) 数据源Oracle新增实时读取方式——Agent，使用该实时模式时，需要联系DataPipeline的工程师为您部署环境。 ## **优化功能** #### **1.同步功能** 详情见：[如何进行写入设置](pzgz.md) 当用户不想同步部分字段时，可单独对每个字段选择是否开启同步按钮。开启标识同步该字段数据，关闭标识该字段不传任何数据。 ![](https://img.kancloud.cn/1c/c9/1cc9c7575441ac91f89b2d6282e89902_904x333.png) #### **2.高级清洗** 详情见：[如何进行写入设置](pzgz.md) 在清洗脚本中，该版本增加了一些脚本模版，减少用户编写脚本的负担，同时用户也可以保存自己的脚本至脚本库。 ![](https://img.kancloud.cn/25/d8/25d80d7687563c2857acb5f3621548e3_1265x648.png) #### **3.动态修改表结构** 详情见：[如何进行写入设置](pzgz.md) 当用户已经激活任务后，想要对字段进行修改，该版本支持用户暂停任务，进行字段的增加和删除功能 ![](https://img.kancloud.cn/9d/01/9d01cfaed921412a832ee4eec5544407_911x541.png) #### **4.API数据源** 详情见：[如何进行读取设置](如何设置读取规则.md) * 使用API数据源时，增加对「raw」的请求模式的支持 ![](https://img.kancloud.cn/df/28/df28f4f2f89c25b809fc2d9f3fe70987_819x388.png) * 添加API时，可对分页参数进行设置，需要选择上面添加过的参数名称，「Parameters Query」和「Headers」下均可添加参数，当参数名相同时，无法区分。在该版本中，选择分页参数时可看到参数所属模块，即可区分 ![](https://img.kancloud.cn/e6/f9/e6f9d12aaf3d061ef113d791f4c85db0_932x163.png) * API的URL中支持【花括号】的模式，可以支持一些动态参数，该版本添加了「Parameters Path」模块，用以支持【花括号】参数。 #### **5.Hive目的地动态分区** 详情见：[如何进行写入设置](pzgz.md) 支持字段分区，当数据目的地为hive时，在写入设置中可由用户指定字段进行hive分区 ![](https://img.kancloud.cn/44/01/44011be7face3f9ffa4a268fb718407f_907x422.png) #### **6.Hive目的地增加数据源变化类型** 详情见：[如何进行任务设置](rwsz.md) 在该版本中，当目的地为hive时，数据源变化设置中增加了对【同步的表字段删除】变化的需求支持，用户可以选择「继续同步，目的地该字段传空」或「暂停数据任务」 ![](https://img.kancloud.cn/42/ac/42ac6fffe720a2ac1442be3e02b9e47e_841x300.png) #### **7.重新同步策略优化** 详情见：[如何管理数据同步](yun-wei-guan-li/shu-ju-ren-wu-xiang-qing-ye/ji-ben-xin-xi.md) 当用户已经激活任务后，可能任务出现一些问题时用户希望重新同步。在概览最下方，可选中要同步的表，进行重新同步操作。在该版本中，重新同步功能提供【删除目的地已存在的存量数据】选项，满足用户可能希望清理之前同步出错的数据，再进行重新同步的要求。 ![](https://img.kancloud.cn/7b/5a/7b5a5024a29c2978d6fa6d8f470890dd_599x266.png) * **当用户选择定时批量读取时，是否要清理目的地数据按照任务设置的配置项来执行相应的操作** ![](https://img.kancloud.cn/01/5b/015b5a8ad5c15db976b03af2e926584f_2782x170.png) #### **8.错误队列支持更多错误类型** 详情见：[如何管理数据同步](yun-wei-guan-li/shu-ju-ren-wu-xiang-qing-ye/ji-ben-xin-xi.md) 在该版本中，当用户新建FTP数据源，FTP数据源设置的字段和实际字段不符时，该类数据错误会进入错误队列。 #### **9.认证方式支持HBase目的地** 详情见：[系统设置](系统设置.md) 在该版本中，用户设置的Kerberos认证方式除了支持 HDFS、Hive 数据目的地，以外新增HBase数据目的地。