Hive技术实现 · DataPipeline产品手册2.4.1

# **Hive技术实现** ## 一、实现原理源端将数据写入kafka ，消费数据到hdfs中，对应路径创建hive 外部表。如果外部表已创建会检查schema 和 partition 是否符合要求，不符合删除表，重现关联外部表。不支持更新和删除。 ## 二、 WAL(Write-Ahead-Log) 机制 ![](https://box.kancloud.cn/63155e9e945343904ac5aed291a9b7bd_404x500.png) ## 三、分区机制 * Wallclock 根据消费时的系统时间来进行分区 * Record 根据产生kafka record 时的record 时间 * RecordField 根据用户自定义的时间戳字段，目前支持bigint 类型和 string 类型。 ## 四、存储格式 CSV Avro Apache Avro是一个数据序列化系统。 Parquet Parquet是面向分析型业务的列式存储格式。主要用于分析和查询。列式存储，兼容多种查询引擎和计算框架，推荐使用。