# **Hive技术实现**
## 一、 实现原理
源端将数据写入kafka ,消费数据到hdfs中,对应路径创建hive 外部表。如果外部表已创建会检查schema 和 partition 是否符合要求,不符合删除表,重现关联外部表。
不支持更新和删除。
## 二、 WAL(Write-Ahead-Log) 机制

## 三、 分区机制
* Wallclock
根据消费时的系统时间来进行分区
* Record
根据产生kafka record 时的record 时间
* RecordField
根据用户自定义的时间戳字段,目前支持bigint 类型 和 string 类型。
## 四、 存储格式
CSV
Avro
Apache Avro是一个数据序列化系统。
Parquet
Parquet是面向分析型业务的列式存储格式。主要用于分析和查询。列式存储,兼容多种查询引擎和计算框架,推荐使用。
- DataPipeline产品手册
- 产品主要界面介绍
- 创建-数据任务
- 数据源
- 配置MySQL数据源
- BINLOG配置手册
- 配置Oracle数据源
- LOGMINER配置手册
- 配置SQL Server数据源
- Change Tracking配置手册
- 配置FTP数据源
- 配置Couchbase数据源
- 配置PostgreSQL数据源
- 配置S3数据源
- 配置API数据源
- 配置Kafka数据源
- 数据目的地
- 配置Redshift数据目的地
- 配置Oracle数据目的地
- 配置MySQL数据目的地
- 配置Kafka数据目的地
- 配置SQL Server数据目的地
- 配置FTP数据目的地
- 配置TIDB数据目的地
- 配置Greenplum数据目的地
- 配置Hive数据目的地
- Hive技术实现
- Hive目前支持情况
- 配置HybridDB for PostgreSQL
- 任务设置
- 选择同步内容
- 数据清洗
- 激活数据任务
- 管理-数据任务
- 数据任务列表
- 数据任务详情页
- 基本信息
- 概览信息
- 任务设置
- 错误队列
- 配置规则
- 消息列表
- 文件同步
- 文件源
- 配置S3文件源
- 配置FTP文件源
- 文件目的地
- 配置hdfs文件目的地
- 任务设置
- 激活文件任务
- 管理-文件任务
- 文件任务详情页
- 基本信息
- 概览信息
- 任务设置
- 消息列表
- 元数据管理
- 用户权限管理
- 系统设置
- 产品更新日志
- 常见问题
