[TOC]
## 2018/8/3 Version 1.9.6
### 新功能点
#### 1、新增TIDB
详情见:[TIDB数据目的地](chapter1/shu-ju-mu-de-di/TIDB.md)
点击「新建数据目的地」,选择「TIDB」进行新建操作:
![](https://img.kancloud.cn/da/c6/dac6e96d3e076b180a5220be0794fe25_1206x1076.png =360x)
#### 2、新增Greenplum
详情见:[Greenplum数据目的地](chapter1/shu-ju-mu-de-di/Greenplum.md)
点击「新建数据目的地」,选择「Greenplum」进行新建操作:
![](https://img.kancloud.cn/cc/eb/ccebb2bff4a0fb018a5e9af460fc10ae_1216x1288.png =360x)
### 优化功能点
#### 1、数据源权限优化
* 最新策略:DataPipeline会逐步校验DB、Schema、table是否有select和view change tracking/logminer/wal2json或decoderbufs(PostgreSQL)权限,如果没有此权限则无法支持CDC方式读取增量数据(实时同步)。
例如, 当部分表未开启Change Tracking时要求:
1、显示该表名称
2、要求置灰,无法勾选
3、鼠标移动到该表名称区域,要求提示:未开启Change Tracking
## 2018/7/12 Version 1.9.5
### 新功能点
#### 1、新增复制任务功能
详情见:[管理数据同步-数据任务详情页-基本信息](yun-wei-guan-li/shu-ju-ren-wu-xiang-qing-ye/ji-ben-xin-xi.md)
①.打开数据任务详情页后,点击任务名称右侧复制按钮后复制一个该任务。
![](https://img.kancloud.cn/18/22/1822cd2590cb66cfd5af25634fb630c3_2474x1534.png =360x)
②.不论原任务何种状态,复制后的任务均为未激活或去完善的状态,允许用户点击编辑,修改任务名,配置信息等
③.复制的数据任务创建人和时间以实际操作者和操作时间为准
④.不复制任务概览信息、消息记录和错误队列等任务运行后相关记录
#### 2、 文件系统远程-数据源、目的地支持本地和远程读取写入
* 配置文件系统数据源
* 若选择Log4j格式的数据源,操作如下。
![](https://img.kancloud.cn/1b/ee/1beed6e03ff6b13ae0818936cdd627d6_1210x998.png =360x)
* 文件位置:支持本地和FTP协议两种。
* 若选择CSV格式的数据源,操作如下。
![](https://img.kancloud.cn/d4/12/d412b4148f7f8dc0045da76612aee00e_1206x1180.png =360x)
* 文件位置:支持本地和FTP协议两种。
* 配置文件系统数据目的地
点击「新建数据目的地」,选择「文件系统」进行新建操作:
:-: ![](https://img.kancloud.cn/9c/52/9c5269c5cd8cdd4d12315a961673d425_1216x996.png =360x)
* 文件位置:支持本地和FTP协议两种。
### 优化功能点
#### 1、目的地表结构显示目的地实际字段类型
①.当数据源为:MySQL、SQL Server、Oracle、PostgreSQL时:目的地Redshift、Oracle、SQL Server、MySQL要求按照数据目的地真实的字段类型进行展现。
![](https://img.kancloud.cn/d2/9f/d29f52f2965d4ece245815944d5e1b99_2492x1598.png =360x)
②.当目的地为文件系统(HDFS、CSV、Kafka)时,目的地的字段类型显示为String。
![](https://img.kancloud.cn/c7/9e/c79e0bfc90310dc695afd372d5d5ff19_2492x1586.png =360x)
③.当数据源和目的地数据库类型为同一个:要求字段类型(包括长度和精度)保持一致。
![](https://img.kancloud.cn/cd/01/cd01a544eb6ec6d91073ce498aad0c8b_2466x1584.png =360x)
#### 2、错误队列操作记录
详情见:[管理数据同步—数据任务详情页—错误队列](yun-wei-guan-li/shu-ju-ren-wu-xiang-qing-ye/cuo-wu-dui-lie.md)
:-: ![](https://img.kancloud.cn/db/2a/db2ad18d711f6be0f088efa9dfac6bb9_2436x824.png =360x)
* 用户点击导出后,
* 消息列表提示:“xxxxx导出了错误队列的数据。”
* 若失败,则在通知中心和消息列表中告知用户:“该项操作失败,请重试。”
* 点击重试后,
* 消息列表提示:“用户重试了错误队列的数据传输。”
* 若失败,则在通知中心和消息列表中告知用户:“该项操作失败,请重试”
* 点击忽略后,
* 消息列表提示:“用户忽略了错误队列的数据。”
* 若失败,则在通知中心和消息列表中告知用户:“该项操作失败,请重试。”
#### 3、前端轮询逻辑优化
* 要求错误队列概览的数字和下方全选的数字一致
* 前端轮询保持和现在一致
#### 4、 文件系统远程-数据源、目的地支持本地和远程读取写入
#### 5、 Drop Table模式改为delete或truncate
* sink
1. 将数据从kafka中先写入一张临时表table_abc_tmp
2. 将临时表的数据复制到目的地表,insert into table_abc select * from table_abc_tmp
## 2018/6/29 Version 1.9.0
### 新功能点:
#### 1、新增数据字典功能
详情见:[元数据管理](shu-ju-zi-dian.md)
①用户可以在数据字典查找所有已创建的数据源详情。
②用户可查看各个数据源下的表和字段的技术元数据。
③用户可查看每张表的数据样例。
* 用户可以通过筛选功能搜索查询数据源/表/视图。
:-: ![](https://img.kancloud.cn/84/d5/84d5a84a9613a0fdbf3ef0d949ccb8dd_1454x702.png =360x)
* 用户可以点击查看总览,查看所有的数据源以及数据源下的表和视图技术元数据。
:-: ![](https://img.kancloud.cn/8b/ab/8babbba0ae76d1a9eef705a226d554aa_2400x1506.png =360x)
* 用户可以在搜索结果页通过筛选功能,筛选数据源类型和创建人来查询数据源/表/视图。
:-: ![](https://img.kancloud.cn/ef/56/ef56405a6cecafd8725aee993abd99b4_2440x748.png =360x)
:-: ![](https://img.kancloud.cn/14/19/141948027c18dbacc775eadf459474d9_2424x1390.png =360x)
* 支持用户点击任意搜索结果查看数据源/表/视图详情。
:-: ![](https://img.kancloud.cn/c1/80/c1808ec0c4580f6987d04142bda611f6_2426x1510.png =360x)
#### 2、SQL类型数据view展现与同步。
* 用户在同步内容时,增加视图的展现与同步,页面展现tables和views。
* 当用户选择SQL类型的数据源,并且在读取数据方式上选择增量识别字段时,用户可查看和选择所需视图。
![](https://box.kancloud.cn/8b94797cb5ac30b0e6bd91ae0b8986ea_1206x780.png =360x)
* 当用户选择SQL类型的数据源,并且在读取数据方式上选择CDC时,用户可以查看视图名称但无法勾选。
![](https://img.kancloud.cn/d3/22/d322154533c8de3cd184d48ce034d7c7_1202x632.png =360x)
### 优化功能点:
#### 1、 SQL Server的数据源和数据目的地自定义Schema。
* 用户在创建SQL Server数据源时可以自定义Schema。
![](https://img.kancloud.cn/de/03/de032cb16018cb743934cb94054f2f8f_1212x1320.png =360x)
* 用户自定义Schema,可以输入多个Schema,用英文逗号分隔。
* SQL Server数据源显示Schema目录设置情况
![](https://img.kancloud.cn/ba/fd/bafd8932fdfff010eaa5643f523b9f60_1212x1078.png =360x)
* 用户在创建SQL Server目的地时可以自定义Schema。
* 用户自定义Schema,只允许输入一个Schema。
## 2018/6/8 Version 1.8.6
#### 1、SQL Server数据目的地
详情见:[SQL Server数据目的地](chapter1/shu-ju-mu-de-di/SQLServer.md)
* 用户可新建SQL Server数据库作为数据目的地。
* 所有的数据源可同步数据到SQL Server数据目的地。
* 暂不支持高级功能-数据源变化部分(无法与设置数据源变化时的目的地操作行为,下个版本会支持)。
* 目前仅支持同步到SQL Server的默认Schema:dbo(下个版本可支持自定义Schema)
#### 2、优化文件系统数据源
* 文件系统的同步任务将视为全量数据的同步。
* 当系统扫描发现新增文件时会同步到数据目的地。
* 当系统扫描发现已同步文件的修改时间发生变化时,会重新同步到数据目的地,并覆盖旧文件。
## 2018/5/24 Version 1.8.5
#### 1、增加高级清洗功能
详情见:[新建数据同步—配置规则—清洗脚本](pzgz/qxjb.md)
* 在配置规则界面,允许用户开启高级清洗功能;
![](https://box.kancloud.cn/8865e8303b57650929ca75164b0a785b_2422x1258.png =360x)
* 支持用户输入或粘贴清洗逻辑,查看样例数据,并可以对清洗逻辑进行试运行;
![](https://box.kancloud.cn/635ec3eeb48066353e24714a30df696c_2526x1576.png =360x)
* Couchbase 暂不支持高级清洗。
#### 2、新增PostgreSQL数据源
详情见:[PostgreSQL数据源](chapter1/shu-ju-yuan/pei-zhi-postgresql.md)
* 支持wal2json、decoderbufs插件实时读取模式;
* 支持增量识别字段定时读取模式。
![](https://box.kancloud.cn/cc774dea0976c065f9e282ac0644caaa_516x186.png =360x)
#### 3、优化消息记录
* 现在每次发起操作请求时,就会记录该条信息进入消息列表;
* 若该操作失败,将在消息列表提示用户操作失败;
* 任务的错误信息将尽可能提供详细信息例如具体发生错误的数据表信息等。
#### 4、CSV数据目的地优化
* 现在将显示数据写入路径,例:`/data/任务ID/user/`。
![](https://box.kancloud.cn/68902c211ca64e425c77c953d46787d5_1268x642.png =360x)
#### 5、支持设置读取条件
* 用户在配置规则页面,可以针对每个数据表设置读取条件;
* 设置后任务将有条件性的读取数据。
![](https://box.kancloud.cn/b56f4f6722f05e5a52c337039b570588_2424x898.png =360x)
#### 6、优化首页加载速度
* 现在首页将优先展示基本信息,异步加载进度信息;
![](https://box.kancloud.cn/3f164ecb4b1d186ea8195215a0d1c11f_1484x666.png =360x)
#### 7、 新增数据源变化设置
* 在任务设置-高级设置中,用户可对数据源变化做出详细的配置;
* 数据源变化包括有:
* 数据源删除正在同步的表;
* 同步的表字段被删除;
* 同步的表发现新增字段;
* 已同步的数据在数据源被删除。
* 当数据源发生相应变化时,数据任务将按照用户的设置暂停或继续同步任务。
![](https://box.kancloud.cn/a0602b0acf6fa78ea49be1e4f7321ef9_2470x1112.png =360x)
#### 8、界面文案等细节优化
* 最新更新时间显示位置移到最右侧;
* HDFS数据目的地的目录提示文案优化;
* 数据任务主页底部增加了当前版本信息;
* 「Schema」一词根据实际应用场景替换为更加精确的表述;
* 数据任务概览页面,最近同步时间位置优化;
* 文件系统取消增量数据概念。
## 2018/4/16 Version 1.8.0
#### 1、优化任务创建流程
* 增加任务名称限制长度;
* 新建 MySQL、Oracle、SQL Server 数据源优化:
* 现在新建时除验证数据源连接以外还将检验数据源版本、权限等信息;
* 数据源详情将对应展示数据源的版本、权限信息以及支持的读取模式;
* 点击数据源详情页的重新连接,系统将重新按照配置内容重新连接数据源检测各个信息。
![](https://img.kancloud.cn/bf/04/bf040f1bd9091b49988b331f14bfd7e5_1222x1074.png =360x)
#### 2、增加任务设置流程:
* 参与人设置:
* 参与人能够浏览、编辑该任务,并受到该任务相关通知;
* 增量数据读取模式设置( 支持 MySQL、Oracle、SQL Server 数据源);
* 数据读取、写入设置,包含:
* 读取并发数、读取速率限制;
* 写入并发数、写入速率限制。
* 高级设置:
* 错误队列设置: 支持设置错误队列预处理行数,错误率阈值等;
* 邮件设置:支持勾选需要邮件通知的信息。
![](https://box.kancloud.cn/aff087923eb6ba2434a923c87984e9e6_2880x3498.png =360x)
* 增加同名表检测
* 选择完同步表后,将实时检测表名称是否符合目的地表名称要求;
* 若存在同名表将会提示用户「目的地已存在同名的表」;
![](https://box.kancloud.cn/c278d868f1f7df01cd4365949f8eb6bd_1136x366.png =360x)
* 目的地为Kafka的任务,将检验目的地是否已经存在的Topic名称,若不存在将提示「Topic名称不存在」
![](https://box.kancloud.cn/b5a6e3e7c2170c411ee2d854aa001358_1020x246.png =360x)
#### 3、数据任务详情页增加任务设置Tab
#### 4、支持用户随时对任务设置进行修改。
* 邮件通知界面优化,优化阅读体验
![](https://box.kancloud.cn/f37539be794b33f2e4344176aafbc316_1504x950.png =360x)
#### 5、 优化数据表更新逻辑
* 减少创建任务流程中的等待时间;
* 尽可能保证用户看到实时的数据表结构。
* 优化数据任务搜索功能
* 提供多个标签项,允许用户点击标签项后再进行关键词搜索,提高搜索效率。
![](https://box.kancloud.cn/dbf7f1117ec1e2268c245f1aa43b0a29_960x498.png =360x)
#### 6、 优化错误通知
* 部分错误信息提供查看原始error code的入口;
* 在通知中心、消息列表或错误提示内点击查看详情即可查看错误具体信息。
![](https://box.kancloud.cn/fb474d52ffee27b7ac0ccce6bc035bcc_1984x924.png =360x)
#### 7、优化数据源表结构用户名前缀
* 部分支持多用户名的数据源,在选表界面能够更加清晰地查看到各用户的数据表;
* 增加提示,提高用户名与表名的区分度。
![](https://box.kancloud.cn/07c726392253a1c422cea4db7c08278d_1288x1450.png =360x)
#### 8、优化错误队列时间选择
* 单独设置开始和结束时间;
* 优化输入体验。
## 2018/3/23 Version 1.7.8
#### 1、搜索功能支持输入正则表达式。
* 选择同步表页面,用户可根据JavaScript正则表达式搜索相同命名规则的表,提高选表效率
![](https://img.kancloud.cn/3b/29/3b2974e47701af3c206135705b1a9b53_1616x754.png =360x)
#### 2、优化数据任务详情页统计数据准确性
#### 3、修复数据任务同步过程中出现的异常问题
## 2018/3/16 Version 1.7.7
#### 1、MySQL、Oracle、SQL Server 为源的数据任务支持表和字段名称修改
* 在任务创建过程时:
* 支持对目的地表名称的自定义修改;
* 支持对目的地表的字段名称的自定义修改;
* 通过展开、收起源 Schema 快速查看数据源表和目的地表的映射关系。
* 此功能可以帮助用户把多个表结构一样的表同步到目的地同名的表,只需用户把几个表名称同样的表设置同一个目的地表名称即可(默认为数据源的表名称)。
![](https://img.kancloud.cn/d7/9c/d79cdb946208fb546863035521cfb217_2506x1356.png =360x)
* 数据任务详情页也同步支持查看数据源和目的地的映射关系。
![](https://img.kancloud.cn/0e/50/0e50e9c27ed06c1ef04838e5d634e70b_2554x844.png =360x)
#### 2、 数据任务详情页优化
* 优化原有的数据任务详情页样式,丰富内容,提供更多与任务相关的图表、速率等信息;
* 数据同步量分为全量数据和增量数据进行统计;
* 提供读取速率、写入速率、已完成数据量等数据信息;
* 允许用户对概览页的数据单位进行切换;
* 提供新增数据量和同步速率的数据图表,可视化呈现任务同步状态;
* 通知消息直接呈现于概览页面,快速查看关于本任务的最新消息记录;
* 数据任务详情页的错误通知窗口不再显示,错误通知等消息均消息列表中查看,报错信息增加技术支持按钮,点击后可以对该条错误申请技术支持;
* 各数据表提供更多的速率和同步信息,方便用户对于单表进度的观察。
![](https://img.kancloud.cn/be/9c/be9c8180816e334ebff6c5235d1a1c81_2880x3840.png =360x)
#### 3、数据任务主页优化
* 数据任务列表的错误通知窗口不再显示,所有的错误通知消息均可在通知中心或数据任务的消息列表中查看。
* 数据任务卡片中任务的状态UI更新,采用和数据任务详情页一致的统计状态。
![](https://img.kancloud.cn/b6/43/b64315d1fb44fd650cfae5e076f98d70_2560x1586.png =360x)
#### 4、 错误队列处理新增重试功能
* 支持对错误内容进行单条或批量重试操作;
* 重试操作将重新尝试向目的地传输保存在错误队列中的数据。
![ ](https://img.kancloud.cn/dd/17/dd172011b0a84bfc1a2923ae15dfa28f_2472x1034.png =360x)
## 2018/3/2 Version 1.7.6
#### 1、增强增量识别字段勾选的提示
* 定时模式的任务将在Schema列表明显位置提示用户选择增量字段;
* 若对所有Schema选择增量识别字段,保存时将会再次提醒用户。
![](https://img.kancloud.cn/68/7b/687b4834abc77ae5c031cadb81e8e20a_1294x644.png =360x)
#### 2、 支持选表过滤配置文件
* 支持自定义编写配置文件对数据源的数据表进行白名单过滤。配置成功后,用户选择对应数据源时,只会显示过滤后的数据表,提高选表效率。
#### 3、 优化速度进度性能
* 现在能够更加准确的显示任务的实际读取速率。
#### 4、修复bug
* 修复logminer 在数据被更新后立即删除下不能正确同步的问题。
* 优化任务停止重启时候的报错机制。
* 修复在系统压力巨大的情况下会丢失数据的问题。
* 修复了 Oracle 不能正确找到小写表名表的问。
## 2018/1/28 Version 1.7.5
#### 1、无主键表同步的支持
* 现在支持选择无主键的数据表并进行同步,增加了数据同步的使用场景。
#### 2、任务调度系统优化,支持更多表的同时同步
* 支持单任务上百张表进行同时同步,优化调度避免任务崩溃的情况出现。
#### 3、提供配置说明和同步规则
* 新建数据源/目的地和选择同步Schema时,会在页面提供详细的规则说明,协助更好地理解并使用平台。
#### 4、修复bug
* 修复Oracle的Interval类型映射问题并取消sink的drop column逻辑。
* 修复Oracle数据源表不存在会报错,并不断重启的问题。
* 修复CSV-CSV同步时速率较慢的问题。
## 2018/1/24 Version 1.7.4
#### 1、支持联合主键
* 现已支持同步由2个或2个以上的字段组成主键的数据表。 保证数据目的地的数据表主键结构和数据源结构一致。
#### 2、优化任务状态的获取
* 所有状态的任务现在都会不断轮询最新状态,严格保证数据任务在平台界面展示的状态和实际后端运行状态一致。
#### 3、优化Oracle写入速度
* Oracle sink 端的临时表与主表,调整为 nologging 模式,并且在应用程序代码所调用的 SQL 中指定了并行追加的执行计划,提升 sink 端数据库服务器的 CPU 使用率,提高了50%的写入速度。
#### 4、优化表结构更新
* 数据源表结构发生变化后,平台在更新表结构时,将检查表是否存在主键,不存在主键的表能被正确显示(无法选择,提示用户该表不存在主键)。
#### 5、修复bug
* 修复 Oracle Logminer 不能正常同步数字的问题。
* 修复 SQL Server 不能正确处理数据源删除事件的问题。
* 修复 Oracle 数据源 Raw 类型字段作为主键无法同步的问题。
* 修复 Mysql 数据源 仅有主键的表无法同步到 Oracle 并进入错误队列的问题。
* 修复任务无法正确删除,删除超时后自动重启报「读取数据任务配置失败」的问题。
* 修复删除任务未清空对应任务的错误队列的问题。
* 修复数据任务无法正常显示操作记录的问题。
## 2018/1/5 Version 1.7.3
#### 1、 FTP数据源(远程文件系统)
* 支持远程文件系统为数据源,定时同步文件数据。
* 支持动态Schema的文件传输。以每个文件的首行作为表头作为Schema进行传输,可支持每个文件的表结构不同的情况。
#### 2、 产品优化
* 增加错误队列类型,帮助用户更快的定位进入错误队列的原因。
* binary double类型主键的Oracle数据源,同步到Mysql的sink会报出「主键类型长度过长」的问题。
* Oracle数据源的长度精度识别问题。
* 优化部分任务速率不准确的问题。
* 新建任务点击下一步后的检验链接过程中不允许进行任意操作。
* 优化错误通知「主键类型过长」的问题。
## 2017/12/20 Version 1.7.2
#### 1、 新增通知中心
* 现在有了统一的入口用于浏览所有的错误通知和其他消息。
* 优化错误通知的浏览方式,为数据任务列表页添加其他信息流出空间。
* 用户可以在通知中心快速切换所有通知与未读通知,并将他们标记已读或清除。
* 点击错误通知可以前往对应的数据任务页面查看具体信息。
![](https://img.kancloud.cn/a8/64/a86498982cb498331550b968941b54a3_528x1692.png =360x)
#### 2、 新增错误队列预警功能
* 当数据任务的错误队列不为空且到达一定数量时,会第一时间在通知中心提醒用户任务存在错误队列,让用户快速了解数据任务的错误情况。
* 根据设定的不同阈值,错误队列的错误率达到对应值时会对数据任务采取不同的预警方式,包括对任务的暂停等,防止过多错误的产生。
* 任务采取预处理机制,保证错误率的平均度,同时保证低数据量的任务的正常运行。
* 错误队列数量达到上限时,系统会暂停产生错误的任务,防止平台溢出崩溃。
#### 3、新增错误队列处理功能
* 支持在错误队列页面查看错误内容来源、错误产生原因等错误内容的详细信息。
* 提供错误队列的基本处理功能,目前提供了对错误内容的导出和忽略。
* 支持对错误内容的单选、多选、全选并进行批量操作。
* 丰富筛选功能,提供对表、错误类型、时间段的筛选及关键词搜索。
![](https://img.kancloud.cn/d5/4a/d54a128b159df35555f0c62e9bba9a43_2236x1362.png =360x)
#### 4、Couchbase支持输入Bucket密码
* 在Couchbase为数据源的数据任务编辑过程中,支持输入Couchbase的Bucket密码让平台能够成功读取数据。
![](https://img.kancloud.cn/48/91/4891ad9f10476caf1ffbd2c1f1df2a23_2462x1160.png =360x)
#### 5、修复bug
* 修复logminer读取模式下间隔报错的问题。
* 修复点击技术支持会不断报错的问题。
* 修复消息记录无法加载更多的问题。
* 选择完数据源和目的地点击下一步的过程中不再能够对现有内容进行更改防止误操作。
#### 6、优化了空场景的提示文案
* 数据任务没有错误内容时现在会正确显示:“错误队列为空”。
* 通知中心没有未读通知是现在能正确提示:“无未读通知”。
* 错误队列中无效信息删除优化。
## 2017/12/4 Version 1.7.1
#### 1、 Oracle数据源采用LogMiner技术
* LogMiner是Oracle数据库提供的一个工具,它用于分析重做日志和归档日志所记载的事务操作。
* 现在您在新建Oracle数据源时,读取模式选择为实时处理时,将采用LogMiner技术对数据源进行读取操作。
![](https://img.kancloud.cn/d9/3f/d93fb3f57f177cfd6f1a8f79d0f0ff3e_1092x1136.png =360x)
* LogMiner部署轻便、调试简单,且该工具完全免费。
## 2017/11/20 Version 1.7.0
#### 1、新增Couchbase数据源
![](https://img.kancloud.cn/53/93/53939e4302f5d7da78d561c4ffee7e71_514x194.png =360x)
#### 2、 新增Kafka数据目的地
![](https://img.kancloud.cn/0c/c2/0cc2c3c223cc3c4c38f75a6c4b11782f_508x186.png =360x)
#### 3、优化数据任务对数据库的连接性能
* 使用了hikari连接池限制了同时与同一个数据库的最多连接数。
* 以此避免同步每张表都建立一个新的连接。
#### 4、优化同时同步大量表的处理能力。
* 支持用少量固定线程同时同步三百张表。
* 一个数据任务可勾选三百个以上的表作为数据读取对象。
## 2017/11/13 Version 1.6.9
#### 1、优化了编辑中任务被激活后的操作逻辑:
* 当该数据任务已被激活,当您再次修改SCHEMA配置点击保存时,将在右上角提示“SCHEMA所属数据任务已激活,无法编辑。”
![](https://img.kancloud.cn/a6/c5/a6c556dac6d8fe7c6ffc08e408aed7cd_2492x890.png =360x)
* 若您未修改schema配置,点击保存后则会直接进入数据任务详情页,并展示数据任务当前的实际进度。 </br>
#### 2、优化了提示文案,现在您可以更直观的看到操作对应的提示内容:
* 包含数据任务、数据源/目的地的提示文案都统一了格式。
![](https://img.kancloud.cn/ea/56/ea56734fdc0d78559f1225c5b1be82a1_692x308.png =360x)
</br>
#### 3、完成了csv数据源的压力测试和多样性测试。
## 2017/10/31 Version 1.6.8
#### 1、CSV为数据源的数据任务流程优化
* 用户在使用同一个类型为CSV的数据任务时,可选择历史相关数据任务的Schema,无需重新设置目的地Schema。
* 在目的地配置页面中,点击【导入Schema】,立即弹窗显示历史数据任务中使用同一个数据源的信息。
* 用户可根据数据任务名称、Schema名称、数据任务创建时间选择需要的Schema。
* 支持导入JSON类型文件来设置数据任务的目的地Schema。
![](https://box.kancloud.cn/dc82b102924ce57ee75025a6f96befe4_1440x900.png =360x)
#### 2.优化:数据任务删除功能
* 当用户二次确认删除数据任务后,系统会后台处理删除请求。
* 系统完成删除任务后,会在页面右上方提示用户删除成功与否。
* 用户可继续操作其他任务,不需要在当前页面等待数据任务删除请求。
## 2017/10/24 Version 1.6.7
#### 1、优化:空场景UI
* 错误队列Tab和消息列表Tab数据为空,以及SQL类型数据库未选择表时的场景UI进行优化,界面更加简洁清晰。
![](https://box.kancloud.cn/76ccf24ac9abff5da8cbc148c2c4c915_1440x900.png =360x)
#### 2、优化:空表处理
* 现在空表能够正确地显示进行状态,并且处理增量数据。
</br>
#### 3、优化:分隔符
* 分隔符现提供常见的逗号和水平制表作为选项方便快速选择,同时也支持自定义输入,
* 规范输入规则,为含空格字符串提供特殊说明避免歧义。
![](https://box.kancloud.cn/c89a5d945ddfa920ba08fa8dfeb12a45_1440x1225.png =360x)
#### 4、修复Bug
## 2017/10/13 Version 1.6.6
#### 1、优化:同步表勾选页面优化
* 不存在主键的表将无法勾选,鼠标移动到勾选区域将提示:该表不存在主键。
![](https://box.kancloud.cn/508a2fa8dff964f21daab850581064a4_1350x852.png =360x)
#### 2、新增搜索功能
* 点击搜索按钮,输入关键字进行搜索,系统根据关键字筛选表名称
* 用户可在搜索结果列表中,勾选对应的表。
![](https://box.kancloud.cn/905296bc676376491a382300abb912db_1320x934.png =360x)
#### 3、优化:任务状态的设计与交互细节
* 统一了任务各个状态时的视觉细节,使得整体更加统一。
![](https://box.kancloud.cn/23293236834327cc34d3a64a457e29e8_4000x1000.png =360x)
![](https://box.kancloud.cn/21b9588ef71151abbd62741bb3bd8c11_6112x420.png =360x)
#### 4、优化:错误提示
* 现在的错误提示将更加正确地反馈错误内容。
</br>
#### 5、修复Bug
## 2017/09/20 Version 1.6.5
#### 1、优化:schema配置错误提醒
#### 2、新增:schema配置的规则限制
#### 3、修复Bug
## **2017/09/08 Version 1.6.1**
#### 1、新增错误队列功能
* 可收集数据任务执行过程中所有数据相关错误,并提供给用户查看。
* 显示总错队列,并支持分表查询错误队列。
* 每个错误包括:Schema名称、错误类型、收集时间、原始数据
* 支持用户自定义时间段查询错误队列
![](https://box.kancloud.cn/b30b3e50d70f44b6b1c6a5caf16026d8_1440x1045.png =360x)
## **2017/08/24 Version 1.6.0**
#### 1、新增数据目的地:AWS RDS
* DataPipeline新增了一个数据目的地,用户可以把数据源数据同步到数据目的地AWS RDS;
#### 2、修复Bug
## 2017/08/17 Version 1.5.5
#### 1、新增功能:允许用户删除已创建的数据源和数据目的地的
* 用户可在新建任务第一步,数据源和数据任务列表中点击【详情】,便可找到目标删除入口。
![](https://box.kancloud.cn/313bd89648b06cdc3b40b331eb7d8280_670x488.png =360x)
* 当目标被其他数据任务使用时用户点击“删除”按钮,会提示:其他数据任务证咋使用该数据源,无法删除。用户需要删除所有与该目标相关的数据任务,才可以删除。
![](https://box.kancloud.cn/494f01f2c064ca8af0add8d9ea168b8a_664x95.png =360x)
#### 2、数据源和数据目的地Schema独立
* 从本版本开始,每个数据源在被同时多个数据任务使用时,系统会根据目的地创建独立的数据目的地Schema,每个数据任务可拥有唯一的Schema。简而言之,一个数据源可在不同的数据任务里按照不同的Schema结构同步数据到目的地。
## **2017/07/28 Version 1.5.0**
#### 1、新增数据目的地:CSV、Oracle、S3
* DataPipeline新增了三个数据目的地,用户可以把数据源数据同步到数据目的地S3、Oracle,还有CSV
![](https://datapipeline.kf5.com/attachments/download/3829268/001597eaa1a01ae201b7a1cccf7e381/?filename=image.png "image.png" =360x)
#### 2、支持删除数据源与数据目的地
#### 3、修复数据任务创建流程中的交互优化
#### 4、修复Bug
## **2017/07/03 Version 1.4.0**
#### 1、新增:输入激活码功能
* DataPipeline用户可以数据激活码的方式延长产品使用期限,不需要DataPipeline工程师重新部署产品或更新产品版本。
![](https://datapipeline.kf5.com/attachments/download/3708742/0015959aa45cb8a9e7d424ffb90fe42/?filename=image.png "image.png" =360x)
#### 2、优化:DataPipeline用户界面细节
* 更新产品新logo到DataPipeline
* 搭配新logo,调整产品主色调
* 优化错误通知处理方式,让用户更方便地处理每个数据任务的错误通知
![](https://datapipeline.kf5.com/attachments/download/3709019/0015959b371f17bf2e98c437dcd92ea/?filename=image.png "image.png" =360x)
## **2017/06/16 Version 1.3.5**
#### 1、新增:消息列表
* 数据任务增加【消息列表】功能,可在数据任务详情页【消息列表】Tab下找到。
* 可查看每个数据任务发生事件,包括:激活、暂停、重启、错误通知、错误通知操作。
* 每个消息显示:操作人、信息详情、发生时间。
![](https://datapipeline.kf5.com/attachments/download/3647020/00159438ab90d2a9aba9add915eb587/?filename=image.png "image.png" =360x)
## **2017/06/09 Version 1.3.0**
#### 1、新增:用户权限2.0
* 管理员可添加小组,并划分用户到各个小组。
* 用户只能浏览、编辑同一个小组用户创建的数据任务、数据源、数据目的地。
* 用户无法浏览其他小组用户创建的任务信息。
* 只有数据任务创建者与管理员可以删除数据任务。
* 删除小组,该小组下的用户会自动移到公共组。
![](https://datapipeline.kf5.com/attachments/download/3619816/001593a3f26108e49486fb00586a01c/?filename=image.png "image.png" =360x)
## **2017/06/06 Version 1.2.0**
#### 1、最新版本着重解决了DataPipeline的交互问题,包括:
* 数据任务列表的错误通知样式、任务卡片提示信息与按钮样式。
* 优化新建数据任务第一步提示功能:当有问题时,用户更加清楚地了解到是哪一块需要修改。
* 在Schema设置页面,用户可浏览相关数据源与数据目的地详情。
* 在Schema设置页面,字段详情列表改为平铺交互方式,减少了用户手动设置Schema的成本。
* 优化数据任务详情页交互方式,把更重要的数据任务状态、速率等信息放在更重要的位置。
## **2017/05/31 Version 1.1.5**
#### 1、新增:数据目的地Kafka
* 用户可以建立数据任务把数据源数据同步到Kafka数据目的地。
#### 2、新增:数据目的地TiDB
* 用户可以建立数据任务把数据源数据同步到TiDB数据目的地。
#### 3、优化:数据任务连接错误处理方式
* 当数据任务连接数据源或数据目的地时连接失败,除了系统自动发出错误通知,系统会不断尝试重新连接数据源或数据目的地。连接成功后,会发出恢复连接的通知。
## **2017/05/11 Version 1.1.2**
#### 1、优化:DataPipeline错误信息用户体验
* 在配置数据源、数据目的地,管理数据任务时用更易懂的错误信息提升用户体验。
* 优化了错误信息和操作反馈信息的展现方式,让用户更好的理解当前任务情况。
#### 2、优化:MySQL数据源到数据目的地的同步数据稳定性与速率**
* 减少MySQL数据源任务异常情况发生概率。
* 提升MySQL数据源到HDFS、Redshift、Infobright等数据目的地同步速率。
## **2017/05/02 Version 1.1.1**
#### 1、新增:DataPipeline试用版
* DataPipeline部署到试用企业的产品是试用版本,有效期为14天,客户需要在14天内试用DataPipeline并提出使用问题或试用问题。
## **2017/04/21 Version 1.1.0**
#### 1、新增:错误通知【技术支持】按钮
* 用户收到错误通知后,若无法自己处理可点击错误通知中的【技术支持】按钮,系统会自动将错误详情发送给DataPipeline 工程师帮助用户解决问题。
#### 2、优化:任务状态
* 任务状态更加准确的反映了当前任务执行状态,并且支持系统发现任务有错误信息时,用户可以自己操作暂停或重启。
#### 3、优化:任务速率和进度
* DataPipeline支持同步数据源的全量数据(历史数据)和增量数据(实时数据),系统会实时提供当前任务同步速率。
* 任务在同步全量数据时,每个Schema的同步状态会显示剩余完成时间(指全量数据)。
* 任务在同步增量数据时,每个Schema的同步状态会显示当前正在同步的增量数据的产出时间。
## **2017/04/11 Version 1.0.8**
#### 1、新增:SQL-Server数据源
* DataPipeline用户可以添加SQL-Server数据源。支持把SQL-Server数据库全量数据和增量数据实时 同步到数据目的地(Redshift、HDFS、 Infobright)。
![](https://datapipeline.kf5.com/attachments/download/3432658/00158f4613ead73407345b89a62ef37/?filename=blob.png "blob.png" =360x)
#### 2、优化Redshift数据目的地配置
* 用户配置Redshift数据目的地时,可以设置Schema来指定数据存放的位置。在配置过程中,我们会默认把数据同步到Public公共区,用户也可以根据自己的需求指定Schema。
![](https://datapipeline.kf5.com/attachments/download/3432650/00158f460e97e661463ecbd7c2c51a1/?filename=blob.png "blob.png" =360x)
## **2017/04/11 Version 1.0.7**
#### 1、新增:Oracle数据源
* DataPipeline用户可以添加Oracle数据源。支持把Oracle数据库全量数据和增量数据实时 同步到数据目的地(Redshift、HDFS、 Infobright)。
![](https://datapipeline.kf5.com/attachments/download/3406281/00158eaf2eecdfd6556d8fefe7af313/?filename=blob.png "blob.png" =360x)
#### 2、修复Bug
* 提高数据任务的速率准确性。
## **2017/03/30 Version 1.0.6**
#### 1、新增:帮助中心
* 用户可以在页面右上方看到【帮助中心】入口,可以浏览DataPipeline的使用说明,并且可以提出问题或评论。
![](https://datapipeline.kf5.com/attachments/download/3389479/00158e45e2a8f0b169678b072924e3e/?filename=blob.png "blob.png" =360x)
#### 2、修复Bug
* 数据任务列表、数据任务详情页、用户管理页面提示交互。
* 用户管理遗留的问题。
## **2017/03/24 Version 1.0.5**
#### 1、新增:用户管理功能
* 普通用户可向管理员申请添加账号后,可通过用户名或邮箱登录DataPipeline。
* 管理员可以赋予其他用户管理员权限或普通用户权限。
* 管理员可以对已创建账号进行冻结或解除冻结,避免无效账号登录DataPipeline。
* 数据任务详情页面中会显示数据任务、数据源、数据目的地的创建人的用户名,方便其他用户寻找负责人。
![](https://datapipeline.kf5.com/attachments/download/3485079/0015909540a08192d2e5572f69a28da/?filename=blob.png "blob.png" =360x)
## **2017/03/20 Version 1.0.1**
#### 1、新增:错误通知功能
* 系统发现每个数据任务出现数据错误、系统错误、安全问题等,会第一时间通过邮件通知相关人员,并且在首页显示错误通知信息。 用户可以点击查看详情后,针对错误信息进行操作。
![](https://datapipeline.kf5.com/attachments/download/3485082/00159095428a705d77245afbb519407/?filename=blob.png "blob.png" =360x)
## **2017/03/15 Version 1.0.0**
#### 1、新增:数据任务列表
* 用户可以看到全部数据任务,可直接看到每个任务的任务名称,相关数据源和数据目的地名称,当前状态。点击即可查看该任务详细信息。
![](https://datapipeline.kf5.com/attachments/download/3340828/00158d0d55353af96bfa885546ed784/?filename=blob.png "blob.png" =360x)
#### 2、新增:数据任务详情页
* 任务详情页中用户可看到该任务当前完成进度和详细的配置信息。
![](https://datapipeline.kf5.com/attachments/download/3341332/00158d0e3fe6aed7f804138e9dfdf47/?filename=blob.png "blob.png" =360x)
#### 3、优化:创建任务流程
* 分三步:1.选择数据源和数据目的地 2.设置Schema 3.激活数据任务。优化了创建流程用户体验,帮助用户更方便的管理数据任务。
#### 4、优化:创建数据源和数据目的地的方式
* 当用户在创建任务过程中没有所需的数据源或数据目的地,可以当前页面下添加数据源和数据目的地。此外,添加的数据源和数据目的地可以被重复使用。
- DataPipeline产品手册
- 产品更新日志
- v2.7.0 版本介绍
- v2.6.5 版本介绍
- v2.6.0 版本介绍
- v2.5.5 版本介绍
- v2.5.0 版本介绍
- v2.4.5 版本介绍
- v2.4.1 版本介绍
- v2.4.0 版本介绍
- v2.3 版本介绍
- v2.2.5 版本介绍
- v2.2 版本介绍
- v2.1 版本介绍
- v2.0.5 版本介绍
- v2.0 版本介绍
- v2.0 以前版本介绍
- 环境和数据库的部署要求
- Mysql - BINLOG配置方法
- Oracle - LOGMINER配置方法
- SQL Server - Change Tracking配置方法
- Postgre SQL-decoderbufs配置方法
- Postgre SQL-wal2json配置方法
- 常见场景操作
- 场景一:实时同步异构数据库数据(例:MySQL到Oracle)
- 场景二:批量同步异构数据库数据(例:SQL Server到MySQL)
- 场景三:API数据同步到关系型数据库(例:API到MySQL)
- 场景四:Hive数据同步到关系型数据库(例:Hive到SQLServer)
- 场景五:关系型数据库数据同步到Hive(例:Oracle到Hive为例)
- 场景六:Kafka数据同步到关系型数据(例:Kafka到MySQL为例)
- 场景七:一对多场景介绍
- 产品入门
- 数据同步任务
- 创建数据同步
- 配置数据源&数据目的地
- 配置数据源
- 配置MySQL数据源
- 配置Oracle数据源
- 配置SQL Server数据源
- 配置PostgreSQL数据源
- 配置FTP数据源
- 配置S3数据源
- 配置API数据源
- 配置Kafka数据源
- 配置Hive数据源
- 配置阿里云 OSS数据源
- 配置腾讯云TDSQL数据源
- 配置自定义数据源
- 配置数据目的地
- 配置MySQL数据目的地
- 配置Oracle数据目的地
- 配置SQL Server数据目的地
- 配置Greenplum数据目的地
- 配置Redshift数据目的地
- 配置TIDB数据目的地
- 配置FTP数据目的地
- 配置HBase数据目的地
- 配置HDFS数据目的地
- 配置Hive数据目的地
- 配置AnalyticDB for PostgreSQL数据目的地
- 配置Kafka数据目的地
- 数据同步的任务设置
- 读取设置
- 数据源资源组设置
- 批量功能
- SQL类型数据源读取条件设置
- 分数据源读取设置
- MySQL读取设置
- Oracle读取设置
- SQLServer读取设置
- PostgreSQL读取设置
- FTP文件系统读取设置
- S3文件系统读取设置
- Hive读取设置
- Kafka读取设置
- 阿里云OSS读取设置
- API读取设置
- 腾讯云TDSQL读取设置
- Hive数据源读取分区设置
- 其他设置
- 错误队列设置
- 邮件通知设置
- 任务分组设置
- 写入设置
- 批量功能
- 设置清洗脚本
- 数据目的地资源组设置
- 数据目的地设置
- 子任务设置
- 数据源变化设置
- 写入端数据一致性
- 批量读取后,先写入到临时表,再转存到实际表
- 高级设置
- 子任务设置
- Hive分区设置
- Column family 设置
- 数据同步任务管理
- 数据任务监控
- 重要任务
- 故障任务
- 非激活状态
- 性能关注
- 数据任务分组
- 管理数据同步
- 复制功能
- 回滚功能
- 重新同步功能
- 错误队列
- 消息列表
- 文件同步任务
- 创建文件同步
- 配置文件源
- 配置S3文件源
- 配置FTP文件源
- 配置文件目的地
- 配置HDFS文件目的地
- 文件同步的任务设置
- 任务流
- 核心功能介绍
- 新建任务流
- 配置核心组件
- 配置开始任务组件
- 配置数据任务组件
- 配置远程命令执行组件
- 配置延时器组件
- 配置权限设置
- 激活任务流
- 元数据管理
- 查看总览
- 搜索页
- 详情页
- 系统设置
- 数据任务
- 元数据管理
- 用户管理
- 常见问题
- 部署要求
- Docker安装的集群部署方式?
- DataPipeline的并发任务是线程还是进程?
- 分布式架构指的是什么样的框架?
- 生产环境配置推荐及回答?
- DataPipeline的服务是统一管理还是私有化部署?若是私有化部署若要升级怎么操作?
- DataPipeline的Kafka如果与客户目前使用的Kafka版本不一样,是否需要适配?
- 请说明产品的HA和容灾方案 ?
- DataPipeline有多少独立的服务?各容器的作用是什么?
- 在从节点上装mysql,对单表导入1000万数据对任务有影响吗?
- 数据传输
- 数据源/数据目的地
- 基本要求
- 数据源或目的地可以重复使用吗?
- 数据源多个表是否可以写到目的地一张表?
- 数据源或目的地连接失败怎么办?
- 数据源
- MySQL
- DataPieline如何应对Mysql数据库表和字段名称大小写不敏感问题?
- DataPipeline Mysql数据源的实时处理模式下,暂时无法读取哪些字段类型?
- Mysql数据源实时处理模式下,暂不支持那些语句操作的同步?
- Oracle
- Oracle实时模式为LogMiner时,为什么还需要设置读取频率?
- SQL Server
- SQL Server数据源读取方式选择Change Tracking时需要注意什么?
- SQL Server实时模式为Change Tracking时,为什么还需要设置读取频率?
- PostgreSQL
- Hive
- Hive数据源支持哪些文件格式?
- Kafka
- FTP文件系统
- FTP数据源CSV静态表结构时,用户为什么需要确认首行是否为字段名称?
- FTP数据源静态表结构和动态表结构的区别是什么?
- FTP源的文件在不断写入的情况下,DataPipeline的读取与写入的模式是怎样的?
- FTP数据源支持哪些编码方式?
- S3文件系统
- 阿里云OSS文件系统
- API
- 腾讯云TDSQL
- 数据目的地
- MySQL目的地常见问题
- 时区问题需要注意什么?
- SQL Server目的地常见问题
- 行级的物理删除,使用Change Tracking的方式,是否获取的到?DataPipeline会如何处理这类的数据?
- 数据源实时模式是否可以同步视图?
- Oracle目的地常见问题
- TiDB目的地常见问题
- 目的地TIDB同步表时,需要注意什么?
- Redshift目的地常见问题
- Redshift 并发数设置是50,DataPipeline对100个表并发插入的方案?对Redshift 性能的影响?DataPipeline对大数据量并发插入Redshift 的处理方式?
- Hive目的地常见问题
- 如何避免Hive目的地出现小文件问题?
- DataPipeline同步数据到Hive目的地表时,数据源发生变化会怎么样?
- 我们目前对已做好Hive分区逻辑的目的地,是不是不支持继续往里写?只能写新表?
- 配置Hive目的地是需要注意哪些?
- Hive目的地时字段转换需要注意哪些问题?
- GreenPlum目的地常见问题
- Kafka目的地常见问题
- kafka目的地支持设置新的分区吗?
- 多个表结构不一致的表,可以同步至kafka的同一个topic吗?
- HDFS目的地常见问题
- FTP文件系统目的地常见问题
- 目的地FTP时,我们现在是按什么逻辑创建文件的?
- AnalyticDB for PostgreSQL目的地常见问题
- Hbase目的地常见问题
- 目的地常见问题
- 各个数据目的地的写入方式分别是采用什么形式?
- DataPipeline支持的数据库的目标端的连接方式是什么?
- DataPipeline支持的目标端冲突数据处理机制是什么?
- 任务设置
- 读取模式相关问题
- 任务设置中读取频率的实现原理是什么样的?
- 采用实时同步的情况,新建同步任务时,源端的数据表有大量的存量数据,如何通过产品实现数据同步的一致性的?
- 定时批量清目标表数据的逻辑是什么样的?
- 数据源端基于日志的实时模式,是源库推送还是我们做捕获?
- 关系型数据如MySQL,如果出现大量的数据修改,BinLog日志如何抓取,如何实现及时的消费?
- 读取与写入的速率限制是按照任务还是按照表?
- 我们的无侵入性是如何实现的?是完全无侵入性,还是侵入性很小?是否无侵入性就意味着源端服务器没有访问请求的压力,那目的端写入是否还存在压力?
- 动态限速的策略是什么?
- 读写一致性的逻辑是什么?
- v2.6版本增量的逻辑如何实现?
- 重新同步策略问题
- 如果任务激活后进行重新同步,目的地数据会清空吗?
- 读取设置
- 如何设置数据读取条件where语句?有哪些注意事项?
- 用户选择实时模式时,选表时发现有一些表置灰不能同步要想同步这些表该怎么办?
- 同步完成后暂停,取消表后又新加入此表,DataPipeline对于此表的处理策略是什么样的?
- 写入设置
- 表和字段问题
- 目的地表名称和字段名称最长字符长度有什么特定限制吗?以及表名称和字段名称的输入规则要求是什么?
- 同步数据到异构数据库,字段类型会有变化吗?
- 表结构中的精度和标度是什么意思?
- DataPipeline所支持的不同数据类型有哪些?kafka schema的数据类型和不同库间的数据库转换规则?
- 数据源端支持哪些字符集类型?
- Hive作为目的地表需要注意什么?
- Hive作为数据源且格式为parquet时需要注意什么?
- 如何新增一个字段?
- 主键相关问题
- 无主键的表的同步逻辑是怎样的?
- 选择增量识别为主键,如何保证源端和目标的数据一致性呢,如果该记录有修改,系统是怎么处理的?
- 数据目的地ODS有大量无主键表,同步时DataPipeline是如何处理的?
- 表结构变化问题
- 任务激活前后,数据源变化表结构变化有什么不同?
- 当数据源表结构更新时DataPipeline是如何处理的?
- 如果目的地端已经存在了数据库表,但表结构不相同,我们能否将数据写入到该表?
- DataPipeline是否支持将不同的数据表(在不同的数据库中,但是表结构一致,同时有主键和唯一性识别的字段),导入同一个目的端表?
- 管理数据同步
- 基本概念
- 错误通知是什么?
- 错误队列是什么?
- 哪些数据错误会进入错误队列?
- 请简述产品支持的目标端冲突数据处理机制?
- 错误队列里的原始数据是指源端读取的原始数据还是说经过清洗规则后的数据?
- 激活任务后,有哪些参数可以修改?
- 同步状态
- 部分表已读取已写入等都为0,但完成进度为100%?
- 任务详情页中的数据读写量具体含义是?为什么有时候还会减少?
- 如何去查看FTP源和FTP文件中的文件有没有同步完成?
- 数据任务激活后是不允许修改任何设置吗?
- 激活任务后,数据百分比为什么会往回条,如:从99% 跳到30%
- 同步逻辑
- 自动重启逻辑是怎样的?
- 目前数据同步的暂停重启策略是什么样的?暂停和重启后是如何读取和写入数据的?
- 目前进行数据任务的时候,读取速率远大于写入速率,其中,已读取且还未写入的数据会暂时存储在Kafka上,但是由于Kafka存储空间有限,超出后容易造成数据的丢失,这怎么办?
- 如果一条数据多次、频繁变化,在DataPipeline产品侧如何保证数据的并行和保序是如何保证的?
- 用户导入数据后,hdfs认证机制,数据哪些用户可以使用,用户数据安全如何确保?
- 请简述目标端性能可管理性(可提供的性能监控、分析、调优手段等)
- DataPipeline是否支持远程抽取数据?
- 如果一条数据多次、频繁变化,在DataPipeline产品侧如何保证数据的并行和保序是如何保证的?
- 产品到期问题
- 产品使用期限到期所有任务都会被暂停任务,那么如何提前获知产品使用期限是否到期以避免任务被暂停?
- 实际场景中,目的地服务器每周可能会有aws升级,需要暂停服务器,DataPipeline有没有对应的方案能够满足?
- 任务报错
- redis连接异常任务暂停了怎么办?
- 文件传输
- FTP文件源同步整个文件时是如何同步的?
- 任务流
- 如何使用远程命令执行脚本来调取另外一个任务流?
- 任务流开启状态下,任务此时关闭掉任务流,正在同步的组件任务的处理逻辑是什么样的?
- 任务流中上游组件有多个组件任务时,上游任务全部完成才能开启下游任务吗?
- 任务既连了开始键,又配置了依赖,执行逻辑会是什么样的?
- 任务流中新建任务为何只有读取方式为增量识别字段,没有binlog?
- 任务监控
- 什么样的实时传输任务会在性能关注中显示?