ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、视频、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
# **Hive技术实现** ## 一、 实现原理 源端将数据写入kafka ,消费数据到hdfs中,对应路径创建hive 外部表。如果外部表已创建会检查schema 和 partition 是否符合要求,不符合删除表,重现关联外部表。 不支持更新和删除。 ## 二、 WAL(Write-Ahead-Log) 机制 ![](https://box.kancloud.cn/63155e9e945343904ac5aed291a9b7bd_404x500.png) ## 三、 分区机制 * Wallclock 根据消费时的系统时间来进行分区 * Record 根据产生kafka record 时的record 时间 * RecordField 根据用户自定义的时间戳字段,目前支持bigint 类型 和 string 类型。 ## 四、 存储格式 CSV Avro Apache Avro是一个数据序列化系统。 Parquet Parquet是面向分析型业务的列式存储格式。主要用于分析和查询。列式存储,兼容多种查询引擎和计算框架,推荐使用。