ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、视频、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
## Hive分区设置 当目的地是Hive时,增加分区设置,来进行数据清洗。允许添加时间分区和字段分区。 时间分区和字段分区可以同时设置,也可以只设置一个。 ![](https://img.kancloud.cn/4d/c3/4dc32f2b8218dde5ecc6187d4d63e658_1864x498.png) * **字段分区** * 分区字段,需要用户去输入分区字段名称以及选择目的地的一个字段作为分区字段的值。 * 要求分区字段名称只能为小写 ,不能与目的地字段重名 * 点击选择目的地的一个字段作为分区字段的值,每个字段只能被选择一次。 * 作为分区字段值的字段类型必须为INT、BINGINT、FLOAT、DOUBLE、DECIMAL、STRING、BINARY,其他类型暂不支持 * 允许一次性添加多个分区字段 * 选择完分区字段后,点击「添加」即可完成分区操作。 * 点击右上角「X」,标识关闭本次添加分区字段操作。 :-: ![](https://img.kancloud.cn/17/ac/17ac315ee359b366d917620a3cd86068_1850x786.png =480x) `注:分区字段的值不能包含空和特殊符号,只允许英文、数字和下划线` * **时间分区** :-: ![](https://img.kancloud.cn/61/5b/615b7341fdb574eacd956772ae3affb9_1976x1260.png =480x) * 只允许添加一个时间分区。 * 使用新增或指定已有字段来设置extractor,让数据在Hive目的地分区写入,通过定义字段格式format和分区时间间隔来自定义分区标准。 * 用户点击开关按钮可以设置开启或者关闭分区 * 时间分区timestamp.extractor为三个选项:写入时间分区(默认)、读取时间分区、自定义时间分区 * 提示文案: * 写入时间分区:系统写入数据到目的地的时间作为分区值 * 读取时间分区:系统读取数据的时间作为分区值 * 自定义时间分区: 分区字段要求输入目的地表结构中的任意字段,目前只支持字段类型为:Bigint 或者 String; 分区字段的类型为Bigint 时要求是13位数字的时间戳(例:1554951853002); 分区字段的类型为String 时要求是类似 1970-01-01T00:00:00Z 的字符串; 若目的地表结构无匹配的分区字段,请在目的地表结构配置区域手动添加并保存一个新字段,最后启用「高级清洗」给新字段赋值(符合分区字段要求)。 <br/> * ***选择写入时间分区*** :-: ![](https://img.kancloud.cn/65/cd/65cdf8d317b2028230ba7861f2feec61_1986x1260.png =480x) * 支持用户设置path.format,可添加单个或多个(例:'year'=YYYY/'month'=MM/'day'=dd,或者 'date'=YYYYMMdd) * 提示文案:指写入目的地时间分区格式 例1: 'date'=YYYYMMdd,表示目的地按天进行分区; 例2:'year'=YYYY/'month'=MM/'day'=dd,表示目的地按天进行分区,但会根据年、月、日生成子目录 * 默认显示一个字段名称输入框和格式输入框(例:'year' =YYYY),右侧一致显示【添加】 * 输入框默认最小长度为4个字符,要求根据文案伸缩输入框,最大字符长度为20个字符。 * 最多添加5个时间分区字段名称。 * 所有输入框不能为空 * 支持用户设置时间间隔,可设置天、小时、分钟 * 默认为1天 * 不能为空 <br/> * ***选择读取时间分区*** :-: ![](https://img.kancloud.cn/21/68/21680e57f46957059dcb72fce0be01da_1970x1260.png =480x) * 支持用户设置path.format,可添加单个或多个(例:'year'=YYYY/'month'=MM/'day'=dd,或者 'date'=YYYYMMdd) * 提示文案:指写入目的地时间分区格式 例1: 'date'=YYYYMMdd,表示目的地按天进行分区; 例2:'year'=YYYY/'month'=MM/'day'=dd,表示目的地按天进行分区,但会根据年、月、日生成子目录 * 默认显示一个字段名称输入框和格式输入框(例:'year' =YYYY),右侧一致显示【添加】 * 输入框默认最小长度为4个字符,要求根据文案伸缩输入框,最大字符长度为20个字符。 * 最多添加5个时间分区字段名称。 * 所有输入框不能为空 * 支持用户设置时间间隔,可设置天、小时、分钟 * 默认为1天 * 不能为空,否则【保存】按钮置灰,并且提示:不能为空 <br/> * ***选择自定义时间分区*** :-: ![](https://img.kancloud.cn/f7/66/f766c871e709b270351c83ac8499e916_1904x878.png =480x) * 支持选择目的的一个字段作为用户设置分区字段的值 * 分区字段要求选择目的地表结构中的任意字段,目前只支持字段类型为:Bigint 或者 String; * 分区字段的类型为Bigint 时要求是13位数字的时间戳(例:1554951853002); * 分区字段的类型为String 时要求是类似 1970-01-01T00:00:00.000+0800 的字符串; * 若目的地表结构无匹配的分区字段,请在目的地表结构配置区域手动添加并保存一个新字段,最后启用「高级清洗」给新字段赋值(符合分区字段要求)。 * 支持用户设置path.format,可添加单个或多个;(例:'year'=YYYY/'month'=MM/'day'=dd,或者 'date'=YYYYMMdd) * 提示文案:指写入目的地时间分区格式 例1: 'date'=YYYYMMdd,表示目的地按天进行分区; 例2:'year'=YYYY/'month'=MM/'day'=dd,表示目的地按天进行分区,但会根据年、月、日生成子目录 * 默认显示一个字段名称输入框和格式输入框(例:'year' =YYYY),右侧一致显示【添加】 * 输入框默认最小长度为4个字符,要求根据文案伸缩输入框,最大字符长度为20个字符。 * 最多添加5个时间分区字段名称。 * 所有输入框不能为空 * 支持用户设置时间间隔,可设置天、小时、分钟; * 默认为1天(单位可选择:年、月、天、小时、分钟) * 不能为空 <br/><br/>