💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
# **配置FTP数据源** 在进行配置之前,请务必检查您的FTP数据源是否符合平台要求,参考如下: | 数据源类型<p style="width:120px"></p> | 版本要求<p style="width:80px"></p> | 用户权限要求<p style="width:100px"></p> | 其他要求<p style="width:120px"></p> | | --- | --- | --- | --- | | FTP(CSV) | 无 | 登录、访问和写入权限 | 无 | 点击「新建数据源」,选择「FTP数据源」进行新建操作: :-: ![](https://img.kancloud.cn/d8/40/d8405f58bd138e3b4516a610e69b60da_1440x1152.png =480x) :-: ![](https://img.kancloud.cn/e9/58/e9583b29d7da446fbc4cb3c8a8da30ca_1440x1347.png =480x) **参数介绍** * 数据源名称:是该数据源在DataPipeline的唯一标识。 * 连接模式:支持被动模式和主动模式的选择 * 服务器地址:输入连接数据源的域名或IP地址。IP地址如192.168.2.11;域名如 data-pipeline.cye55uthbqll.cn-north-1.redshift.amazonaws.com.cn。 * FTP端口:输入连接数据源的端口值。 * 数据端口:输入连接数据源的端口范围(连接模式为主动模式时显示数据端口) `注:选择主动模式时,需要运维工程师帮助修改端口设置,否则数据源无法正常使用。` * 用户名和密码:输入可访问该数据源的用户名和密码。 * 读取目录:输入文件系统所在目录,要求目录以【/】开头。 * 文件类型:选择数据源的文件类型,目前只支持CSV格式。 * 表结构(单选) * 静态: 1、指每个文件的表结构是一致的 2、支持同步到所有目的地类型 * 设置首行为字段名称(单选) * 是:读取文件时忽略第一行数据。 * 需要设置表头 * 多个表头用英文逗号隔开 * 不允许为空 * 否:会从文件第一行数据开始同步。 * 动态: 1、指允许同步表结构不一致的文件到目的地 2、支持的数据目的地类型:Kafka、FTP、HDFS、Greenplum * 编码方式:输入数据源数据的编码方式(支持所有合法的文件编码方式)。 * 文件分隔符(三选一) * 逗号 * 水平制表 * 自定义 * 输入规则为: * 分隔符可为任意字符,支持空格、转义字符等特殊字符; * 可以直接输入的字符,在输入框中直接输入字符或者用Unicode来表示,例如: 分隔符为空格,则直接用键盘输入"空格",或者输入"\u0020"即可; * 无法直接输入的字符,则应输入字符的对应Unicode或者用下表对应转义字符输入,例如:分隔符为换行,则输入"\n",或者输入"\u000a"。 | 字符 | 表示 | | :--- | :--- | | \b | \u0008,退格\(BS\) ,将当前位置移到前一列 | | \f | \u000c,换页\(FF\),将当前位置移到下页开头 | | \n | \u000a,换行\(LF\) ,将当前位置移到下一行开头 | | \r | \u000d,回车\(CR\) ,将当前位置移到本行开头 | | \t | \u0009,水平制表\(HT\) ,跳到下一个TAB位置 | * 特别地,若分隔符要求保留"\",则需输入两个“\”来表示,例如:分隔符为字符串"\b",则请输入"\\b"。 * 高级设置 * 元数据管理:开关控制开启和关闭,默认为开启 * 提示文案:开启后,该数据源允许编辑和查看元数据信息 * 点击连接后将验证数据源连接配置并同时检验数据源版本、权限等信息; * 成功连接后将会自动打开该数据源的详情页。 :-: ![](https://img.kancloud.cn/74/32/7432519834150178b22612b007d0a334_1226x1302.png =480x) * 动态表结构暂时只支持到FTP、Kafka和HDFS目的地 </br></br></br> * * * * * </br></br></br> ### Q1:FTP数据源支持哪些编码方式? 解析编码将使用jdk标准的处理方式,只要是合法的文件编码都能够支持。 </br></br></br> * * * * * </br></br></br> ### Q2:FTP数据源静态表结构和动态表结构的区别是什么? 静态表结构:指每个文件的表结构是一致的,支持同步到所有目的地类型。 动态表结构:指允许同步表结构不一致的文件到目的地,目前DataPipeline支持同步到Kafka、HDFS、文件系统三种类型目的地,其他类型目的地会在其他版本中实现。 </br></br></br> * * * * * </br></br></br> ### Q3:FTP数据源CSV静态表结构时,用户为什么需要确认首行是否为字段名称? 文件系统CSV类型是以纯文本的形式存储表格数据(数字和文本),通常所有的记录都有完全相同的字段序列,因此用户可以设置是否读取字段名称这一列。 当首行为字段名称时,系统读取文件会忽略第一行字段名称,从下一行开始读取,用户可采用填写表头的方式进行数据同步;当首行不为字段名称时,系统会从第一行数据开始同步。