规则发现
该模块提供图数据分析和规则发现服务。用户通过指定数据源、支持度百分比、发现深度以及配置模式结构控制挖掘粒度。系统自动生成规则、计算规则的评价指标、获取实例并提供可视化界面,方便用户查看与操作。
前置条件
须满足如下条件:
- 用户已登录。
- 数据源管理中存在至少一个状态为已完成的数据库数据源/文件数据源。
任务创建
规则发现任务创建具体操作流程如下图所示。
以下配置信息,以数据源管理中完成配置的数据源样例
为例创建规则发现任务。
新建任务
点击规则发现
,进入规则发现模块,再点击新建任务
。
基础配置
按下图输入基础配置信息,完成配置后点击下一步
基础配置说明
配置项 | 配置样例 | 配置信息说明 |
---|---|---|
数据源 | 数据源样例 | 规则发现任务创建依赖的图数据来源。须在数据源管理模块下数据库数据源/文件数据源 中,存在状态为已完成 的数据源。 |
支持度百分比 | 10% | 支持度的比例值,为支持度与全部起始点数量的比值;用于在不同数据集间比较规则的普遍性。参考公式:注:该参数仅针对发现对象为单实体或者无配置情况生效。 |
发现深度 | 2 | 规则的图模式以起始点为中心的最大直径。注:该参数仅针对发现对象为单实体生效。 |
任务名称 | 规则发现样例 | 用户根据需求自定义。 |
发现对象配置
基础配置完成后,进入发现对象设置界面。
(1)使用默认配置
系统会根据抽图结果,自动选择一个实体作为起始点。
(2)使用自定义配置
不想使用默认配置时,可点击默认的实体进行配置,重新选择实体。
发现对象配置说明
配置项 | 配置样例 | 配置信息说明 |
---|---|---|
标签 | 明星 | 标签为用户希望挖掘的规则中实体所含信息,标签为必填项。标签值来源于对应数据源在数据源管理-数据准备 阶段定义的实体或实体关系的标签名称。 |
属性 | 无 | 属性为用户希望挖掘的规则实体/实体关系中所含特性信息,属性为选填项。属性值对应数据源在数据源管理数据准备界面定义的实体或者实体关系下的属性。 |
属性值 | 无 | 属性值为实体所含特性的具体描述信息。 |
说明:
- 用户配置发现对象可以看作输入信息,通过给定信息,限定发现规则的内容和图模式。
- 属性值既可单选,也可多选,由数据源指定属性类型决定。
发现对象配置模式说明
发现对象支持模式 | 模式说明 |
---|---|
单实体 | 仅添加单个实体,以该实体作为起始点扩展图模式发现规则。 |
连通图 | 添加多个实体,并结合实体关系将实体连接起来,以该连通图发现规则。 |
说明:
- 单实体配置:如
规则发现-单实体配置示意图
所示。- 连通图配置:发现对象配置中若添加多个实体则实体间必定是能够连接成图的,若存在一个孤立点,则该配置无法提交,如
规则发现-连通图配置示意图
所示。
发现方向配置
实体配置及提交任务
进入发现方向配置界面,选择预测内容。
发现方向支持模式说明
预测内容 | 说明 |
---|---|
实体属性预测 | 挖掘出以该实体下的指定属性值为推导结果的规则。 |
实体关系属性预测 | 挖掘出以该实体关系下的指定属性值为推导结果的规则。 |
链路预测 | 两个实体及两者之间的一个实体关系,且均不能含有属性。挖掘以此实体关系为推导结果的规则。 |
说明:
- 实体属性预测:如
规则发现-实体属性预测配置示意图
所示。- 实体关系属性预测:如
规则发现-实体关系属性预测配置示意图
所示。- 链路预测:如
规则发现-链路预测配置示意图
所示。
监控信息
提交任务后进入监控页面,任务完成5秒后,界面自动跳转到规则发现结果界面。
状态监控参数说明
信息项 | 信息项说明 |
---|---|
起始点 | 展示符合发现对象起始点的数量。 |
已发现图模式 | 若发现对象配置为单实体/无配置形式,则图模式不限定,显示系统发现的图模式数量。 |
放弃图模式 | 在发现规则过程中不符合预期的图模式数量。 |
已放弃规则 | 不符合预期或冗余规则数量。 |
已验证规则 | 根据配置发现的所有规则数量。 |
规则结果查看
任务完成后,界面自动跳转至规则发现结果界面。
注:
- 如果有一部电视剧被导演执导,有一个明星参演了一部电影也参与了这部电视剧,这部电视剧的集数小于13.5集,那么这部电视剧类型为剧情,情感的概率是10.88%(置信度),是正常情况下电视剧类型为剧情,情感概率的1.31倍(提升度),满足这条规则的明星在数据源中共有384个(支持度)。
- 一般解读规则时,从图中带有0标记的实体开始解读,先解读该实体标签和属性,而后从该实体出发解读其指向或指入的实体标签及属性内容,直至所有实体内容解读完毕,最后再得出推导信息。
规则参数说明
参数说明:Q为规则φ图模式,X和Y为基于Q的属性限制。
信息项 | 参考公式 | 信息项说明 |
---|---|---|
支持度(Support) | 当前数据中,同时满足X,Y属性集合及图模式Q的起始点数量(通过起始点去重的实例个数);支持度衡量了该规则在当前数据集中的普遍性。 | |
置信度(Confidence) | 置信度代表在当前数据集中,如果一个实例满足图模式Q以及X属性集合,则该实例满足Y属性集合的概率 (P(Y/(Q,X)))。置信度越接近100%,规则越可信。 | |
提升度 (Lift) | 提升度代表在当前数据中,图模式Q与属性集合X对Y分布的改变,即该规则的影响力。lift>1时,说明(Q,X)对Y的分布有正向影响(使得Y的出现概率上升);lift=1说明(Q,X)与Y无关;lift<1说明(Q,X)对Y的分布有负向影响(使得Y的出现概率下降),规则的lift越远离1则规则越有意义。 |
规则类型说明
规则类型判断优先级:多值>数值分段>通常
规则类型 | 说明 |
---|---|
通常 | 规则中不包含对数值的处理,也不包含或(∨)非(¬)关系的规则 |
数值分段 | 规则中包含对数值的处理 |
多值 | 规则中包含或(∨)非(¬)关系的规则 |
多值规则与通常规则,如下图所示。
规则实例查看
规则实例为某一规则具体举例示意,如下图所示。每个规则对应最多5个实例展示,每个实例与对应规则标签、属性信息一致,且会在此基础上增添更多实际的属性信息,以便用户理解规则含义。
规则结果页面常用功能说明
功能 | 功能说明 |
---|---|
关键词过滤 | 规则发现结果页,根据规则标签、属性,筛选用户所需的规则。 |
克隆配置 | 状态为已结束 的规则发现任务,可通过克隆操作,将创建一个相同配置的任务,任务名称会在原任务名后添加_copy,以示该任务为克隆任务。 |
规则入库
规则入库操作
(1)点击规则发现
,查看“规则发现样例”,进入规则发现结果界面,点击下图所示的入库操作图标。
(2)界面弹出弹窗,输入下图所示信息,如图所示。
说明:
- 系统会自动生成一个规则ID-随机字符串的规则名称。
- 同一规则可以重复入库。
- 可以不新建规则集,若不新建规则集则该规则直接添加至
规则库
中。规则库
内的规则以及规则集命名不能重名。