配置Hive数据目的地 · DataPipeline产品手册2.4.1

# **配置Hive数据目的地** 在进行配置之前，请务必检查您的Hive数据源是否符合平台要求，参考如下： | 目的地类型 | 版本要求 | 用户权限要求 | 其他要求 | | --- | --- | --- | --- | | Hive | apche hadoop 2.7,hive 1.2.2 | 如果不开启hive的话需要拥有写入目录的读写权限；如果开启hive的话需要hive home 目录的读写权限 | 不同版本兼容情况未知，需要注意不同版本兼容问题。| 点击「新建数据目的地」，选择「Hive」进行新建操作： * 数据目的地名称(必填） * 是否开启分区（必选） * 两个选项：开启、关闭 * 选择【开启】，下方显示 :-: ![](https://box.kancloud.cn/6e52bb25840b3839bf0a1874be78a160_766x1042.png =480x) * HDFS配置 * 提示文案：请上传以下文件（要求文件名称与格式保持一致）： * core-site.xml * hive-site.xml * hdfs-site.xml （若未开启HA，则不需要上传该文件） * 点击上传配置文件按钮会出现弹框需要用户选择上传的文件，支持上传XML格式的配置文件。 * 需要上传 core-site.xml、hdfs-site.xml、hive-site.xml文件。请参考考官方说明：http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/ClusterSetup.ht * 数据库名称（必填）：要求连接数据库的名称。 * Home Path（必填）：默认值：/user/hive/warehouse * 用户名：输入可访问该数据目的地的用户名 * 认证方式 * 选项:关闭(默认）、LDAP、Kerberos * 用户选择LDAP后， * 显示服务器地址&用户名&密码 * 不允许为空，否则在输入框直接提示：不能为空。 * 用户选择Kerberos后，显示三个输入选项： * hdfs principal * hdfs keytab * namenode principal * 写入格式（必填-单选） * 三个选项：PARQUET（默认）、AVRO、CSV * 选择CSV要求用户设置分隔符 * 逗号 * 水平制表 * 自定义 * 输入规则为： * 分隔符可为任意字符，支持空格、转义字符等特殊字符； * 可以直接输入的字符，在输入框中直接输入字符或者用Unicode来表示，例如：分隔符为空格，则直接用键盘输入"空格"，或者输入"\u0020"即可； * 无法直接输入的字符，则应输入字符的对应Unicode或者用下表对应转义字符输入，例如：分隔符为换行，则输入"\n"，或者输入"\u000a"。 | 字符 | 表示 | | :--- | :--- | | \b | \u0008,退格\(BS\) ，将当前位置移到前一列 | | \f | \u000c,换页\(FF\)，将当前位置移到下页开头 | | \n | \u000a,换行\(LF\) ，将当前位置移到下一行开头 | | \r | \u000d,回车\(CR\) ，将当前位置移到本行开头 | | \t | \u0009,水平制表\(HT\) ,跳到下一个TAB位置 | * 特别地，若分隔符要求保留"\"，则需输入两个“\”来表示，例如：分隔符为字符串"\b"，则请输入"\\b"。 * 选择【关闭】，下方显示 :-: ![](https://box.kancloud.cn/e5f69e20de7e7dd4b34f9e1933e80257_1220x1166.png =480x) * HDFS配置 * 提示：请上传以下文件（要求文件名称与格式保持一致）： * core-site.xml * hdfs-site.xml（若未开启HA，则不需要上传该文件） * 允许用户输入URL * 点击上传配置文件按钮会出现弹框需要用户选择上传的文件，支持上传XML格式的配置文件。 * 需要上传 core-site.xml、hdfs-site.xml文件。 * 写入目录：默认值：home path / dbname / tbname 或者写入目录 / tbname * 用户名：输入可访问该数据目的地的用户名 * Kerberos认证 * 选项:关闭(默认）、开启 * 用户点击开启后，显示三个输入选项： * hdfs principal * hdfs keytab * namenode principal * 写入格式（必填-单选） * 三个选项：PARQUET（默认）、AVRO、CSV * 选择CSV会多一项：用户设置分隔符。AVRO和PARQUET不需要。 * 成功连接后将会自动打开该数据目的地的详情页。 :-: ![](https://box.kancloud.cn/c04f130a9d2aeaeb9451345f35a73353_1216x884.png =480x) * 开启Hive后，用户需要点击【高级设置】设置时间分区字段（操作详情请见数据清洗Hive分区设置介绍）。 :-: ![](https://box.kancloud.cn/be57798017f36754e4c57306f79c899c_1540x396.png =480x) * 支持用户开启或者关闭时间分区 * 用户开启时间分区后，用户可以设置Wallclock、Record、Recordfield等三种时间分区类型。 * 用户选择Wallclock、Record分区类型时 * 支持用户设置path.format，可添加多个 * 支持用户设置时间间隔 * 用户选择Recordfield分区类型时，可以设置时间字段作为分区字段 :-: ![](https://box.kancloud.cn/a853179b337d5da9a62fe0cf1651c15e_1118x342.png =480x) * 用户选择Hive目的地，并且同步范围选择「全量数据」时 * 若用户对同步的表不进行分区，则每次定时同步全量数据时：DP会先删除目的地对应的hive表，并全量覆写。 * 若用户对同步的表进行了分区 * 如果是需要在新的分区下写入数据，则直接写入对应该分区的数据。 * 如果是需要在老的分区下写入数据，则删除老分区的所有数据后再写入本次全量覆写中对应该分区的数据。 * 详细内容请见数据清洗（sjqx.md） * * * * * #### Q1：是否开启hive和是否开分区对于目的地数据有什么样的影响？ A：开启hive的话，目的地会创建hive表，用于查询数据；开不开启hive数据都会进入到hdfs里，对于数据是没有影响的；开不开启分区关系到数据是在hdfs哪个路径之下，开分区数据会按照分区逻辑进入hdfs不同路径，不开分区数据就会放到hdfs一个路径下。