数据源管理
提供关系型数据转换为图数据的功能,支持对关系型数据转图数据结果检测,抽取的图数据为规则发现建立基础。可实时查看数据转换过程信息,帮助用户管理不同数据源。支持对接多种关系型数据存储的库或方式:PostgreSQL、MySQL、Oracle、Hive、GreenPlum、GaussDB、YashanDB和存放在对象存储服务中的CSV文件。
创建数据库数据源/文件数据源流程:
前置条件
数据库数据源/文件数据源特指关系型数据库(目前支持PostgreSQL、MySQL、Oracle、Hive、GreenPlum、GaussDB、YashanDB)和存放在对象存储服务中的CSV文件,用户需要提供可访问的数据库或对象存储服务,并将待分析的数据存放其中。
数据源种类
- PostgreSQL:连接PostgreSQL数据库,将存储在PostgreSQL的关系型数据转换为图数据。
- MySQL:连接MySQL数据库,将存储在MySQL的关系型数据转换为图数据。
- Oracle:连接Oracle数据库,将存储在Oracle的关系型数据转换为图数据。
- Hive:连接Hive数据库,将Hive的数据转换为图数据。
- GreenPlum:连接GreenPlum数据库,将GreenPlum的数据转换为图数据。
- GaussDB:连接GaussDB数据库,将GaussDB的数据转换为图数据。
- YashanDB:连接YashanDB数据库,将YashanDB的数据转换为图数据。
- CSV文件-S3:将存放在对象存储服务器上的CSV文件载入系统并转换为图数据。
- CSV文件-本地上传:上传本地的CSV文件,载入系统并转换为图数据。
各种数据库支持的数据类型详情,请查看附录1。
创建数据源
从数据库建立
本节以创建PostgreSQL数据源为例。
(1)在数据源管理界面依次点击新建
、PostgreSQL
进入数据库连接界面,如图所示。
从规则发现界面也可连接数据库,依次点击新建数据源
、PostgreSQL
。
(2)填写数据库连接信息,进行连接测试,如图所示。
数据库连接信息配置说明如下表。
数据库连接信息 | 配置说明 | 配置样例 | 必要 |
---|---|---|---|
服务器地址 | 访问数据库的IP地址。 | 127.0.0.1 | 是 |
端口 | 访问数据库的端口。 | 5432 | 是 |
数据库名称 | 访问用于转换成图数据的关系型数据存放的数据库。 | database | 是 |
用户名 | 对数据库名称配置的数据库有读权限的用户。 | admin | 是 |
密码 | 上述用户名对应的密码,如若用户可无密码访问可不填。 | password | 否 |
连接出现问题与建议如下:
- 问题:数据源连接失败,请重新配置数据库连接信息。 建议:查看除IP网段的所有数据库信息,是否有误。
- 问题:请求超时。 建议:查看IP网段是否能正常访问。
(3)数据库连接成功后,填写数据源名称,选择数据源时区,填写备注(选填),然后点击下一步
,如图所示。
点击下一步
,进入数据准备界面,系统自动弹出交互抽图窗口;同时数据源管理界面能看到新增的数据源,如图所示。
从CSV建立
创建文件数据源只需要将存放在对象存储服务器上的CSV文件载入系统。关河因果分析系统支持从”CSV文件-S3“和”CSV文件-本地上传“两种方式创建文件数据源。
系统只会拉取用户配置的Bucket下以.csv结尾的文件,目录和其它不满足条件的文件不会拉取,同时CSV文件还需满足以下条件:
- 文件名只能包含数字、中英文字符、下划线 "_" 和 连接号 "-"。
- 字符编码类型为UTF-8。
- 文件首行会作为表的字段名,故首行不能存在空字段。
通过”CSV文件-S3“创建文件数据源
(1)在数据源管理界面依次点击新建
、CSV文件-S3
进入数据库连接界面,如图所示。
在规则发现页面也可进入CSV文件-S3连接页面,依次点击新建数据源
、CSV文件-S3
。
(2)填写S3连接信息,数据源名称,选择数据源时区,填写备注(选填),然后点击下一步
,如图所示。
CSV文件-S3连接详情信息如下表。
S3连接 | 配置说明 | 配置样例 | 必要 |
---|---|---|---|
Endpoint | S3的地址信息。 | oss-cn-shenzhen.aliyuncs.com | 是 |
Access key ID | 访问密钥中的AccessKey ID。 | accesskeyid | 是 |
Secret access key | 访问密钥中的AccessKey Secret,相当于登录密码。 | secretaccesskey | 是 |
Bucket | 相应的S3 Bucket信息,指存储空间,是用于存储对象的容器。 | bucket | 是 |
(3)点击下一步
后系统弹出CSV文件导入弹窗,进行文件导入操作,如图所示。
(4)待文件导入完毕,进入数据准备界面,系统自动弹出交互抽图窗口,有弹窗提示“导入成功”;同时数据源管理界面能看到新增的数据源,如图所示。
通过”CSV文件-本地上传“创建文件数据源
(1)在数据源管理界面依次点击新建
、CSV文件-本地上传
进入CSV文件上传界面。
在规则发现页面也可进入CSV文件上传页面,依次点击新建数据源
、CSV文件-本地上传
。
(2)填写数据源名称,选择数据源时区,填写备注(选填),然后点击新建数据源
,如图所示。
(3)点击”新建数据源“后,点击”CSV文件上传“模块上传本地的CSV文件,如图所示。
注意:同一批次上传的CSV文件大小不能超过2G。
(4)完成本地CSV文件的上传和解析后,点击下一步
,系统弹出CSV文件导入弹窗,进行文件导入操作,如图所示。
(5)待文件导入完毕,进入数据准备界面,系统自动弹出交互抽图窗口,有弹窗提示“导入成功”;同时数据源管理界面能看到新增的数据源,如图所示。
CSV文件导入结果如下:
- 所有CSV文件导入成功,成功进入数据准备界面。
- 部分CSV文件导入成功,结果如图“部分CSV文件导入成功界面”所示。点击
下一步
可以使用导入成功的CSV文件做数据准备。 - 所有CSV文件导入失败,出现相应弹窗,如图“所有CSV文件导入失败界面”所示。
其中,点击重新配置
可以返回到连接S3界面;点击查看详情
可以查看导入失败的CSV文件对应的错误日志,如图所示。
出现有异常的CSV文件能查看详情,两种异常:文件格式及编码错误、CSV内部格式错误。
- 文件格式及编码错误:
- 读取文件列名失败,文件编码方式不为 UTF-8;
- 数据库外部表关联文件失败,文件首行表头异常。
- CSV内部格式错误:
- 读取文件列名失败,文件可能为空;
- 数据库外部表关联文件失败,文件某行数据少于列数