数据源管理

提供关系型数据转换为图数据的功能,支持对关系型数据转图数据结果检测,抽取的图数据为规则发现建立基础。可实时查看数据转换过程信息,帮助用户管理不同数据源。支持对接多种关系型数据存储的库或方式:PostgreSQL、MySQL、Oracle、Hive、GreenPlum、GaussDB、YashanDB和存放在对象存储服务中的CSV文件。

创建数据库数据源/文件数据源流程:

image-20230726163955779
数据源管理流程图

前置条件

数据库数据源/文件数据源特指关系型数据库(目前支持PostgreSQL、MySQL、Oracle、Hive、GreenPlum、GaussDB、YashanDB)和存放在对象存储服务中的CSV文件,用户需要提供可访问的数据库或对象存储服务,并将待分析的数据存放其中。

数据源种类

  • PostgreSQL:连接PostgreSQL数据库,将存储在PostgreSQL的关系型数据转换为图数据。
  • MySQL:连接MySQL数据库,将存储在MySQL的关系型数据转换为图数据。
  • Oracle:连接Oracle数据库,将存储在Oracle的关系型数据转换为图数据。
  • Hive:连接Hive数据库,将Hive的数据转换为图数据。
  • GreenPlum:连接GreenPlum数据库,将GreenPlum的数据转换为图数据。
  • GaussDB:连接GaussDB数据库,将GaussDB的数据转换为图数据。
  • YashanDB:连接YashanDB数据库,将YashanDB的数据转换为图数据。
  • CSV文件-S3:将存放在对象存储服务器上的CSV文件载入系统并转换为图数据。
  • CSV文件-本地上传:上传本地的CSV文件,载入系统并转换为图数据。

各种数据库支持的数据类型详情,请查看附录1

创建数据源

从数据库建立

本节以创建PostgreSQL数据源为例。

(1)在数据源管理界面依次点击新建PostgreSQL进入数据库连接界面,如图所示。

image-20230726112020452

创建数据源

从规则发现界面也可连接数据库,依次点击新建数据源PostgreSQL

(2)填写数据库连接信息,进行连接测试,如图所示。

image-20230726115705170

数据库连接1

数据库连接信息配置说明如下表。

数据库连接信息配置说明配置样例必要
服务器地址访问数据库的IP地址。127.0.0.1
端口访问数据库的端口。5432
数据库名称访问用于转换成图数据的关系型数据存放的数据库。database
用户名对数据库名称配置的数据库有读权限的用户。admin
密码上述用户名对应的密码,如若用户可无密码访问可不填。password

连接出现问题与建议如下:

  • 问题:数据源连接失败,请重新配置数据库连接信息。 建议:查看除IP网段的所有数据库信息,是否有误。
  • 问题:请求超时。 建议:查看IP网段是否能正常访问。

(3)数据库连接成功后,填写数据源名称,选择数据源时区,填写备注(选填),然后点击下一步,如图所示。

image-20230726115749379

数据库连接2

点击下一步,进入数据准备界面,系统自动弹出交互抽图窗口;同时数据源管理界面能看到新增的数据源,如图所示。

image-20230726115409395

交互抽图

image-20230726115927940

数据源

从CSV建立

创建文件数据源只需要将存放在对象存储服务器上的CSV文件载入系统。关河因果分析系统支持从”CSV文件-S3“和”CSV文件-本地上传“两种方式创建文件数据源。

系统只会拉取用户配置的Bucket下以.csv结尾的文件,目录和其它不满足条件的文件不会拉取,同时CSV文件还需满足以下条件:

  • 文件名只能包含数字、中英文字符、下划线 "_" 和 连接号 "-"。
  • 字符编码类型为UTF-8。
  • 文件首行会作为表的字段名,故首行不能存在空字段。

通过”CSV文件-S3“创建文件数据源

(1)在数据源管理界面依次点击新建CSV文件-S3进入数据库连接界面,如图所示。

image-20230726142057474

CSV文件-S3创建文件数据源

在规则发现页面也可进入CSV文件-S3连接页面,依次点击新建数据源CSV文件-S3

(2)填写S3连接信息,数据源名称,选择数据源时区,填写备注(选填),然后点击下一步,如图所示。

image-20230726143214745

CSV文件-S3连接

CSV文件-S3连接详情信息如下表。

S3连接配置说明配置样例必要
EndpointS3的地址信息。oss-cn-shenzhen.aliyuncs.com
Access key ID访问密钥中的AccessKey ID。accesskeyid
Secret access key访问密钥中的AccessKey Secret,相当于登录密码。secretaccesskey
Bucket相应的S3 Bucket信息,指存储空间,是用于存储对象的容器。bucket

(3)点击下一步后系统弹出CSV文件导入弹窗,进行文件导入操作,如图所示。

image-20230726143744110

CSV文件导入

(4)待文件导入完毕,进入数据准备界面,系统自动弹出交互抽图窗口,有弹窗提示“导入成功”;同时数据源管理界面能看到新增的数据源,如图所示。

image-20230726144202440

交互抽图

通过”CSV文件-本地上传“创建文件数据源

(1)在数据源管理界面依次点击新建CSV文件-本地上传进入CSV文件上传界面。

image-20230726145008282

CSV文件-本地上传,创建文件数据源

在规则发现页面也可进入CSV文件上传页面,依次点击新建数据源CSV文件-本地上传

(2)填写数据源名称,选择数据源时区,填写备注(选填),然后点击新建数据源,如图所示。

image-20230726150143893

CSV文件上传1

(3)点击”新建数据源“后,点击”CSV文件上传“模块上传本地的CSV文件,如图所示。

image-20230726150537749

CSV文件上传2

注意:同一批次上传的CSV文件大小不能超过2G。

(4)完成本地CSV文件的上传和解析后,点击下一步,系统弹出CSV文件导入弹窗,进行文件导入操作,如图所示。

image-20230726151345763

CSV文件导入

(5)待文件导入完毕,进入数据准备界面,系统自动弹出交互抽图窗口,有弹窗提示“导入成功”;同时数据源管理界面能看到新增的数据源,如图所示。

image-20230726151518196

交互抽图

CSV文件导入结果如下:

  • 所有CSV文件导入成功,成功进入数据准备界面。
  • 部分CSV文件导入成功,结果如图“部分CSV文件导入成功界面”所示。点击下一步可以使用导入成功的CSV文件做数据准备。
  • 所有CSV文件导入失败,出现相应弹窗,如图“所有CSV文件导入失败界面”所示。

img

img

CSV文件导入结果

其中,点击重新配置可以返回到连接S3界面;点击查看详情可以查看导入失败的CSV文件对应的错误日志,如图所示。

image-20220125155452939

CSV文件导入失败详情

出现有异常的CSV文件能查看详情,两种异常:文件格式及编码错误、CSV内部格式错误。

  • 文件格式及编码错误:
    • 读取文件列名失败,文件编码方式不为 UTF-8;
    • 数据库外部表关联文件失败,文件首行表头异常。
  • CSV内部格式错误:
    • 读取文件列名失败,文件可能为空;
    • 数据库外部表关联文件失败,文件某行数据少于列数