抽图及抽图结果检测
在完成全部数据模型的属性选择后,点击提交按钮,系统开始抽图并检测抽图结果。抽图结果检测是系统依据图的点边数据、抽图过程的丢弃日志等来对图文件做出详细的评价。
(1)提交配置,弹出“生成图文件”弹窗,如下图所示。
生成图文件过程中点击
返回数据源管理
,返回数据源管理界面,本抽图任务仍在后台运行。点击停止
,抽图任务终止,系统跳转至创建数据源页面。
(2)抽图完成,如下图所示。
(3)点击查看数据源
按钮进入数据源查看界面,如下图所示。点击实体,可查看到用户配置属性通过模型计算后,产生的衍生属性。点击已配置模型
按钮,可查看当前数据源使用的模型及模型中已选的属性。
(4)点击查看检测结果,出现检测结果的弹窗,如图所示。
编码检测
检测图文件编码是否正确。系统在抽图时会以编码/加密的方式对数据进行处理,解决用户数据的安全合规问题。此处是为了检验最终图文件是否按照预期完成编码/加密,并保证后续规则发现能够正常执行。
属性类型检测
检测图文件属性数据是否符合类型,某一属性列表明为数值类型,则抽图文件中该属性列的属性值都必须为数值类型才能通过。
- 若数值型列中的数据一大半填写数值一小半填字符,抽图过程中抽图异常—可修复,其属性类型检测会判定为失败。
连通性检测
连通性列表5个连通分量分别的点边数量,其最大连通分量实体数为45014,总实体数为孤立点的个数加上连通分量点的个数,一共56033个。最大连通分量的实体数和总实体数的比例大于0.5,为通过,如图所示。
- 检测图文件的连通性情况,实体/实体关系数量越集中,图文件质量越高,最大连通分量的实体数/总实体数>0.5即为检测通过。
信息熵检测
信息熵是信息论中用于度量信息量的一个概念。 一个系统越是有序,信息熵就越低; 反之,一个系统越是混乱,信息熵就越高。 所以,信息熵也可以说是系统有序化程度的一个度量。 信息熵过低,说明实体与实体关系的属性信息过于单一,可能会挖掘出大量意义不大的规则; 信息熵过高,说明实体与实体关系的属性信息过于随机,可能会导致包含该属性的规则因支持度不足而被抛弃; 公式计算如下所示:
数值属性内容分布情况
显示数值内容的分布的箱型图,包含该属性列数值的上边缘、下边缘、上四分位数、下四分位数、中位数等 显示离群值。
显示标签和数值类型属性名,且显示箱型图和离群点,如图所示。
丢弃数据日志
不符合要求的数据将被丢弃,显示日志序号,丢弃数据原因和对应类型说明的编号。
丢弃类型说明:
- 丢弃类型1:若实体列/关系列有数据内容为空,则该空数据对应的实体/实体关系将会被丢弃
- 丢弃类型2:若实体关系对应的起点、终点的实体列有数据内容为空,则该空数据对应的实体关系将会被丢弃
- 丢弃类型3:如果实体关系所对应实体标签在已抽出的实体标签中不存在,则该条实体关系将会被丢弃
- 丢弃类型4:如果属性列有为空的数据内容,则为空数据对应的属性将会被丢弃
- 丢弃类型5:属性类型为时间/数值/YM时间/YMD时间且转换失败的属性将会被丢弃
对于在数据库中是字符类型但属性类型被选为
时间
/数值
的数据,系统会尝试将其转为数值类型,但会出现转换失败的情况,例如“180cm”因为其带有非数字的字符导致系统无法完成转换。对于此种情况,系统会将转换失败的属性丢弃。 - 丢弃类型6:实体/实体关系已有重复记录,合并可能造成属性冲突其属性将会被丢弃
数据内容判断为空的标准:数据为"","none","nan","null"其中之一则认为是空数据,如果是组合实体列/关系列,只要有一个实体列/关系列有数据内容为空也会丢弃对应的实体/实体关系