v2.5.5 版本介绍 · DataPipeline产品手册2.7.0

[TOC] # DataPipeline v2.5.5版本介绍 **2019年7月1日** Version 2.5.5包括以下新增功能和优化。 ***** ### **新增功能** #### **1.Hive数据源** 详情见：[Hive数据源](chapter1/shu-ju-yuan/Hive.md) * 点击「新建数据源」，选择「Hive」进行新建操作： :-: ![](https://img.kancloud.cn/27/0f/270f5482d510bc6d616630420e138f2f_1304x1088.png =480x) * 数据源名称：是该数据源在DataPipeline的唯一标识。 * HDFS配置 * 点击上传配置文件按钮会出现弹框需要用户选择上传的文件，支持上传XML格式的配置文件。 * 需要上传 core-site.xml、hdfs-site.xml、hive-site.xml文件。请参考考官方说明： [http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/ClusterSetup.html](http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/ClusterSetup.html) * 数据库名称：要求连接数据库的名称。 * HDFS用户名：HDFS用户名用于读取Hive表映射路径下的文件数据，若该用户名无权限访问，则无法读取数据。 * 文件格式 * 四个选项：CSV（默认）、PARQUET、AVRO、RC File（本版本只支持CSV和PARQUET）读取分区设置 (请见：读取分区设置.md) <br/> #### **2.新增HBase目的地** 详情见：[配置HBase目的地](chapter1/shu-ju-mu-de-di/HBase.md) :-: ![](https://img.kancloud.cn/94/37/9437f131778eca7e2b525edfc13ead14_1254x946.png =480x) * 数据目的地配置内容 * 数据目的地名称 * Zookeeper.quorum（必填） * Tablespace(必填） * 支持数字、英文、下划线，不支持特殊符号，只能字母开头。 * Parameter * 提供Key 和Value设置。 * 默认只显示「添加」按钮。 * 点击「添加」按钮，用户可输入：Key 和 Value * Key和Value任何一行不能为空。 * 成功连接后将会自动打开该数据目的地的详情页。配置rowkey（详情见：配置rowkey.md） <br/> #### **3.Hive目的地动态分区** * 当目的地是Hive时，增加分区设置，来进行数据清洗。 * 允许添加时间分区和字段分区。 * 时间分区和字段分区可以同时设置，也可以只设置一个 :-: ![](https://img.kancloud.cn/85/4f/854fa2f2005873c8986b1511aed9d03d_2008x1048.png =480x) * 字段分区 * 分区字段名称 * 要求分区字段名称只能为小写 * 点击显示该表的所有字段名称。 * 每次只能选择一个分区字段。 * 一个分区字段，只能被选择一次。 * 选择完分区字段后，点击「添加」即可完成分区操作。 * 点击右上角「X」，标识关闭本次添加分区字段操作。 :-: ![](https://img.kancloud.cn/8c/14/8c143c7a3865df4df277b58cca96fc19_1966x1086.png =480x) `注：分区字段的值不能包含空和特殊符号，只允许英文、数字和下划线`