产品简介
关河因果分析系统是支持可解释逻辑规则的自动发现、自动筛选、可增量的一站式数据分析平台,以深圳计算科学研究院自主设计、研发的钓鱼城引擎为驱动,挖掘数据中潜在的关联关系,为客户发现数据中隐含的价值。 可广泛应用于金融风控、生物制药、电商引流、 智慧政企等领域。
产品关键特性和关键技术
关键特性
- 可解释
关河因果分析系统团队以图理论为基础研发钓鱼城引擎,进行逻辑规则推导,相比传统的机器学习模型结果拥有可解释的优势,不但可以对未来趋势做出预测, 还可以对预测的结果进行解释, 帮助用户找到数据中隐藏的因果关系,解决机器学习模型结果难以应用的问题。 - 精准度提高
基于可满足性、蕴含性、关联推导、增量关联等基础理论,关河因果分析系统结合已发现规则与机器学习模型,预测新数据的关联关系,以及融合逻辑规则的模型,有效提高了关联推断的准确性,在链路预测和属性预测方面,较单个模型精准度提高约30%。 - 实时响应
采用自研的图分割、图压缩、增强图计算等图并行算法,不仅支持百亿级数据全量分析,而且能够应对业务实时数据处理,迭代计算学习新数据特征,持续挖掘新价值,还能够应对不同来源、不同类型的复杂数据。支持对数据进行规则匹配,实时输出预测结果。 - 安全
关河因果分析系统是基于数据特征进行逻辑计算的系统,不关心数据实际内容,客户可对涉及用户隐私的数据进行加密处理,加密后的数据仍可参与计算。关河因果分析系统支持内网部署,客户数据不必流出,无须担心数据安全合规问题。 - Ground Truth积累
架构层面的数据积累。
关键技术
- 图计算
以图作为数据模型,采用频繁子图挖掘、频繁项集挖掘、图分割、图压缩、增强图计算等图相关算法,分布式并行计算挖掘图数据中存在的关联规则。 - 逻辑规则和机器学习相融合
关河因果分析系统图谱因果分析引擎融合了创新图关联规则理论与人工智能领域的最新成果,既解决了传统专家人工制定规则的高成本、准确性、一致性问题,也解决了机器学习输出结果无法解释问题和可应用性问题。 - 自动特征工程
关河因果分析系统预构建了多领域成熟的机器学习模型,对客户数据中的信息进行数据校验、数据清洗、特征提取,从而获取更好的数据特征,将原始数据自动转换成高质量的图数据,降低数据挖掘的工作量并提高计算结果的质量。 - 离线加密
支持用户在本地对数据进行加密,在不影响计算效果的情况下最大程度保护用户数据隐私,从处理流程上避免数据合规问题。
产品主要应用场景
关河因果分析系统强大的数据分析能力、丰富的功能特性满足了用户不同的场景多样化需求。在金融、生物医药、政企、互联网等领域都有着广泛的应用前景。包含以下主要应用场景。
图风控:金融风控反欺诈
图风控场景是基于关河因果分析系统的金融行业风控业务支撑场景。可在银行、保险、证券等企业的海量业务数据中,自动发现潜在的异常交易、信用波动、循环担保等风控特征。关河因果系统通过对企业各类数据源的图数据建模、图关联分析,可实时输出数据中的关键风险特征,为金融企业的风控决策系统提供场景化的数据分析支持,从而提升机构的整体风控能力,减少资金损失。
图引流:互联网推广引流
图引流场景是基于关河因果分析系统的互联网电商站内、站外辅助引流场景。图引流场景在用户画像等传统方法基础上,引入关联视角,进一步分析出目标商品的潜在客户与其他商品、其他客户之间的普遍关联,从而能更精准、高效地通过社交网络、直播平台、电商平台完成流量投放,实现更高投流转换率。
图预测:药物研发
图预测场景是基于关河因果分析系统的生物制药领域新药物研发的业务支撑场景。图预测场景是在包含基因、疾病、药物信息的图数据中,利用大数据图的关联规则去发现药物、疾病、靶点之间的隐蔽关联,以及基因对疾病的影响过程和作用方式,计算两种疾病具有分子相似性的指标,靶点表现出分子功能的多向性,对靶向识别,药物再利用,药物不良反应事件提供数据分析支持。
图监控:工业故障检测和基于规则的告警
图监控场景是基于关河因果分析系统引擎的工业制造行业的智能制造等业务支撑场景,在新能源、制造业、环保产业等相关产业的实时数据中,能够实时监控异常信息,精准地发现数据变动,及时定位设备故障。根据出现过的告警及问题,也能够及时预警,预先做好防备以减少损失。
图推荐:业务线索发现
图推荐场景是基于关河因果分析系统的业务线索发现场景,专注于帮助企业构建可信的精准推荐能力,通过自动化的数据规律发现,提供商品选品、客户群选择、人才选拔等推荐服务,助力客户找到业务发展的关键资源,持续提升核心业务指标。
产品架构说明
产品架构
关河因果分析系统的产品架构从逻辑上分为四层
- 应用层:为政企、金融、工业制造等行业人士提供信息安全、事件预测、反欺诈、风险管理、智能制造、精准营销等场景下的数据挖掘应用。可针对各行业数据特点进行定制,贴合行业需求,提高数据分析效率。
- 服务层:使用机器学习与逻辑结合的方式和基于新型关联规则的关联分析方式解决同构数据关联;使用关联规则自动发现的方式和正确性保证的ground truth推导方式解决异构数据关联。基于这两种数据关联,进行数据值关联、边值关联以及多源异构实体关联。
- 计算引擎:基于樊文飞院士子图为中心不动点计算的理论基础实现Grape+图计算引擎,对构建的海量属性图做高效加载、图增量计算,实践证明该技术比传统图计算引擎如graph++速度快10倍以上。
- 数据层:接入多源异构数据,如交易数据、征信数据、政府数据、企业数据等结构化数据,客户数据、客服记录、舆情数据、第三方数据等非结构化数据,以及介于二者之间,不通过固定数据模型描述数据关系的半结构化数据。对于后两种类型数据关河因果分析系统预置了成熟的机器学习模型将其自动转化为结构化数据,实现将多源异构数据灵活转化为图数据送入计算引擎进行处理。
产品部署和运行环境
关河因果分析系统单机版,仅需单台主机即可完成安装部署,主机环境要求:
CPU处理器核心数量:8核
内存:16GB
硬盘:磁盘安装空间大于200GB
操作系统:支持64位操作系统,包括win7/10/11、windows server 2008/2012/2016/2019/2022
微软运行库:Microsoft VisualStudio C++ 2015-2019及以上版本
安装、使用过程需要注意:
- 关河因果分析系统单机版使用时需要占用主机的8080和9876端口。
- 使用模型服务需要提前安装模型的运行环境,请在”下载中心“界面点击”模型下载“,进入下载选择窗口后按实际需要选择模型和插件,然后再点击”确认下载“,下载后安装自己需要的模型或插件。
Oracle客户端安装
需要安装Oracle客户端,数据源管理中才能正常连接Oracla数据库,安装步骤如下。
- 步骤一:下载basic和sdk安装包:
- 步骤二:两个安装包放在同一个目录下,解压。(比如,将两个压缩包放在E:\Oracle下,解压到当前文件夹,最后会自动生成一个新的文件夹instantclient_21_10,两个安装包的文件都会放到该文件夹下,即E:\Oracle\instantclient_21_10)
- 步骤三:修改环境变量将E:\Oracle\instantclient_21_10添加到系统环境变量PATH,并确保改环境变量生效(若环境变量未生效,可重启电脑让修改的环境变量生效)
- windows Server 2008 和windows 7系统。需要11.2的oracal客户端。访问如下链接选择Version 11.2.0.4.0的Instant Client Package - Basic和Instant Client Package - SDK并登录Oracle官网后可进行下载安装。
- 下载地址:https://www.oracle.com/cn/database/technologies/instant-client/winx64-64-downloads.html 。