💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
[TOC] # DataPipeline v2.6.0版本介绍 **2019年8月5日** Version 2.6.0包括以下新增功能和优化。 ***** ## **新增功能** #### **1.一对多的数据同步** 详情见:[如何创建数据同步](创建数据同步.md) 当用户想要将一个数据源同步到多个不同的目的地时,可以选择多个数据目的地,从而省去了用户创建多个任务的麻烦,同时减少任务并发数量,节省操作时间,只需要读取一次即可完成到多个目的地的分发。 ![](https://img.kancloud.cn/b3/30/b3306a9a9f55afe6ac1670254d15a431_712x368.png) <br/> #### **2.动态限速和传输队列限制** 详情见:[如何进行任务设置](rwsz.md) 在进行数据同步任务时,有时读取速率远大于写入速率,那么**已经被读取但还未写入**的数据会暂时存储到队列中,但该队列的存储空间有限,当数据已被读取而未被写入,队列存储空间已满时,就会造成数据的丢失。 在该版本中提供了解决方案: * 可以在任务设置中对数据源设置的【传输队列最大缓存值】和【传输队列回收时间】根据业务数据量进行合理设置,使得队列缓存大小可以满足业务数据量大小 ![](https://img.kancloud.cn/bc/98/bc9817814fe2e702a955105d61677d06_1029x233.png) * 除此之外,该版本还提供了【数据任务动态限速】的功能,用户可以开启该功能,当队列满时,进行数据读取限制,以保证数据不会丢失,但会带来读写性能下降。 ![](https://img.kancloud.cn/4e/02/4e022651cfd8484a4834a4ddc5a5e478_1172x84.png) * **在读取设置界面,对于每个单表级别可以进行单独的传输队列的设置,该优先级高于任务设置。当用户进行了该设置,会优先使用表级别的传输队列设置;若部分表无此设置,则使用任务设置中的传输队列设置** <br/> #### **3.批量设置** 详情见:[如何进行读取设置](如何设置读取规则.md) 用户在进行读取和写入设置时,可能会需要对每个表进行批量移除、where语句设置和目的地表名设置等,当每个表操作相同时需要多次重复操作,过于繁琐。 在该版本中,可以一次性勾选多个表,批量进行where语句和目的地表名的设置(当目的地为HBase时还包括Column Family设置) ![](https://img.kancloud.cn/29/a5/29a5929da50731fa094f906cd9bd35c7_292x248.png) ![](https://img.kancloud.cn/3a/a1/3aa1f06dd35c0561c52eced85396337c_292x263.png) #### **4.端到端一致性功能** 详情见:[如何进行任务设置](rwsz.md) 在数据同步的过程中,当出现暂停任务再开启后,可能会出现任务进度没有被记录的情况,从而导致数据丢失或重复的问题。 该版本提供了读取端和写入端的【事务一致性】选项,开启后,系统会准确记录任务进度,保持数据源和目的地的一致性。 ![](https://img.kancloud.cn/fe/63/fe638e5c435599dd283e949ad76dd0b0_1189x83.png) ![](https://img.kancloud.cn/98/90/98903ec707dcc10d177b8be2711822b0_1182x169.png) 除此之外,在批量读取模式下,提供【写入临时表】选项,将每批数据先写入临时表,本批次写完后再写入实际表,保证数据一致性。 ![](https://img.kancloud.cn/8e/f6/8ef68162d4e91e29352ef746c10be107_1178x88.png) <br/> #### **5.读取模式优化** 详情见:[如何进行任务设置](rwsz.md) 当用户选择批量模式,可选择增量识别字段进行增量数据的读取和写入,但一些目的地不能实现对数据唯一性的判断,就无法进行增量读取和写入,只能每批都重新写入,从而会造成数据重复。 该版本在任务设置 - 数据目的地设置提供了【清除目标数据表数据】的选项,可以在每批数据写入前清除目标表,从而解决数据重复的问题。 ![](https://img.kancloud.cn/3d/cf/3dcf8abebb8f23519633873c13937657_1175x72.png) <br/> #### **6.批量设置读取条件** 详情见:[SQL类型数据源读取条件设置](数据源为SQL类型.md) 当数据源为SQL类型的数据源时,用户可以编辑不同的读取条件来进行数据的同步,在之前的版本中我们支持设置增量识别字段的方式来读取增量,但是要求选择的字段必须为可排序,例如数字或时间类型,推荐的字段类型一般为随数据更新而自增的字段。在本版中支持设置其他的字段作为增量读取条件。 新功能解决的问题: 1\. 在关系型数据库作为数据源的情况下,允许用户针对每一个表设置WHERE读取条件,并提供lastmax方法。 2\. 使用该函数DataPipeline会取该任务下已同步数据中某一个字段的最大值,用户可以使用该值作为WHERE语句读取条件。 3\. 用户使用last\_max()函数,在首次执行该语句或对应字段暂无数值时,则会忽略该函数相关的读取条件。 4\. 允许用户结合其他数据库提供的方法编辑读取条件: :-: ![](https://img.kancloud.cn/00/29/002917d682b5ccaa865494163ea4b30d_2880x1646.png =480x) #### **7.数据源腾讯云TDSQL** 详情见:[腾讯云TDSQL](chapter1/shu-ju-yuan/pei-zhi-tdsql.md) 新增数据源——腾讯云TDSQL,支持同步到目的支持的所有数据库。 #### **8.Oracle数据源支持Agent的实时读取方式 详情见:[Oracle数据源设置](Oracle数据源设置.md) 数据源Oracle新增实时读取方式——Agent,使用该实时模式时,需要联系DataPipeline的工程师为您部署环境。 ## **优化功能** #### **1.同步功能** 详情见:[如何进行写入设置](pzgz.md) 当用户不想同步部分字段时,可单独对每个字段选择是否开启同步按钮。开启标识同步该字段数据,关闭标识该字段不传任何数据。 ![](https://img.kancloud.cn/1c/c9/1cc9c7575441ac91f89b2d6282e89902_904x333.png) <br/> #### **2.高级清洗** 详情见:[如何进行写入设置](pzgz.md) 在清洗脚本中,该版本增加了一些脚本模版,减少用户编写脚本的负担,同时用户也可以保存自己的脚本至脚本库。 ![](https://img.kancloud.cn/25/d8/25d80d7687563c2857acb5f3621548e3_1265x648.png) <br/> #### **3.动态修改表结构** 详情见:[如何进行写入设置](pzgz.md) 当用户已经激活任务后,想要对字段进行修改,该版本支持用户暂停任务,进行字段的增加和删除功能 ![](https://img.kancloud.cn/9d/01/9d01cfaed921412a832ee4eec5544407_911x541.png) <br/> #### **4.API数据源** 详情见:[如何进行读取设置](如何设置读取规则.md) * 使用API数据源时,增加对「raw」的请求模式的支持 ![](https://img.kancloud.cn/df/28/df28f4f2f89c25b809fc2d9f3fe70987_819x388.png) * 添加API时,可对分页参数进行设置,需要选择上面添加过的参数名称,「Parameters Query」和「Headers」下均可添加参数,当参数名相同时,无法区分。 在该版本中,选择分页参数时可看到参数所属模块,即可区分 ![](https://img.kancloud.cn/e6/f9/e6f9d12aaf3d061ef113d791f4c85db0_932x163.png) * API的URL中支持【花括号】的模式,可以支持一些动态参数,该版本添加了「Parameters Path」模块,用以支持【花括号】参数。 <br/> #### **5.Hive目的地动态分区** 详情见:[如何进行写入设置](pzgz.md) 支持字段分区,当数据目的地为hive时,在写入设置中可由用户指定字段进行hive分区 ![](https://img.kancloud.cn/44/01/44011be7face3f9ffa4a268fb718407f_907x422.png) <br/> #### **6.Hive目的地增加数据源变化类型** 详情见:[如何进行任务设置](rwsz.md) 在该版本中,当目的地为hive时,数据源变化设置中增加了对【同步的表字段删除】变化的需求支持,用户可以选择「继续同步,目的地该字段传空」或「暂停数据任务」 ![](https://img.kancloud.cn/42/ac/42ac6fffe720a2ac1442be3e02b9e47e_841x300.png) <br/> #### **7.重新同步策略优化** 详情见:[如何管理数据同步](yun-wei-guan-li/shu-ju-ren-wu-xiang-qing-ye/ji-ben-xin-xi.md) 当用户已经激活任务后,可能任务出现一些问题时用户希望重新同步。在概览最下方,可选中要同步的表,进行重新同步操作。 在该版本中,重新同步功能提供【删除目的地已存在的存量数据】选项,满足用户可能希望清理之前同步出错的数据,再进行重新同步的要求。 ![](https://img.kancloud.cn/7b/5a/7b5a5024a29c2978d6fa6d8f470890dd_599x266.png) * **当用户选择定时批量读取时,是否要清理目的地数据按照任务设置的配置项来执行相应的操作** ![](https://img.kancloud.cn/01/5b/015b5a8ad5c15db976b03af2e926584f_2782x170.png) <br/> #### **8.错误队列支持更多错误类型** 详情见:[如何管理数据同步](yun-wei-guan-li/shu-ju-ren-wu-xiang-qing-ye/ji-ben-xin-xi.md) 在该版本中,当用户新建FTP数据源,FTP数据源设置的字段和实际字段不符时,该类数据错误会进入错误队列。 #### **9.认证方式支持HBase目的地** 详情见:[系统设置](系统设置.md) 在该版本中,用户设置的Kerberos认证方式除了支持 HDFS、Hive 数据目的地,以外新增HBase数据目的地。 <br/><br/><br/>