[发明专利]一种基于知识图谱的关联交易挖掘识别方法及装置有效
申请号: | 202010229331.8 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111444410B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 李振;宋璞;刘恒;赵兴莹;秦培歌;李勇辉 | 申请(专利权)人: | 民生科技有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/36 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 101300 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 关联 交易 挖掘 识别 方法 装置 | ||
1.一种基于知识图谱的关联交易挖掘识别方法,所述方法用于挖掘并识别关联交易,其特征在于,包括以下步骤:
S1:获取目标数据,清洗筛选出可信数据;
S2:对所述可信数据进行实体抽取和实体间对应关系抽取,将抽取后得到的实体和实体间对应关系导入图数据库,生成初步知识图谱;
S3:从所述初步知识图谱中查找满足关联规则的节点对,将节点对之间的关联关系添入S2中的所述图数据库,获得完善知识图谱;关联规则为用于识别会导致企业自身利益转移的内外部关系的规则;
S4:在所述完善知识图谱的基础上,通过图表示学习算法进一步增加关联关系,得到最终知识图谱;
S5:利用所述最终知识图谱识别关联交易信息;
所述S1具体包括:
S11:利用爬虫手段在网站上爬取所需信息,并结合内部信息,将得到的全部信息作为目标数据;所需信息包括企业的工商、舆情、投融资、经营动态;内部信息包括银行内部的担保、交易、借贷数据;
S12:剔除目标数据中错误、重复及无关的信息,得到清洗后数据;
S13:根据信息来源为清洗后数据中的每条信息设置权重系数,并计算得到每条信息的可信度;
S14:设置置信阈值为正数,从清洗后数据中剔除可信度低于所述置信阈值的信息,将剩余信息作为可信数据;
所述S4具体包括:
S41:利用DeepWalk算法将完善知识图谱中的节点映射到一个连续的低维向量空间中,得到节点向量;将任意两个节点向量拼接得到边向量;
S42:取具有关联关系的两节点映射得到的两个节点向量拼接得到边向量,作为正样本;将确定不具有关联关系的任意两节点映射得到的两个节点向量拼接得到多个不满足关联关系的边向量,作为负样本;将所述正样本和所述负样本组成训练数据集;
S43:基于优化算法,利用所述训练数据集构建分类器;
S44:利用所述分类器识别所述训练数据集以外的边向量。
2.根据权利要求1所述的一种基于知识图谱的关联交易挖掘识别方法,其特征在于,所述信息来源包括多级别信息来源,信息来源的级别越高,为从中得到的信息设置的权重系数越大。
3.根据权利要求2所述的一种基于知识图谱的关联交易挖掘识别方法,其特征在于,所述计算得到每条信息的可信度,具体包括:
设来自信息来源I1,I2,…,In-1,In的信息的权重系数分别为ω1,ω2,…,ωn-1,ωn,所述权重系数为正数,n为正整数;
取来自信息来源Ii的一条信息Xi,其中i=1,2,…,n-1,n,用来自其他信息来源Ik的与信息Xi有逻辑关系的信息Xk进行交叉验证,其中k≠i,k=1,2,…,n-1,n,交叉验证得到信息Xi又一次正确的概率为pk,则信息Xi的可信度C(Xi)表示为:
C(Xi)=ωi*1+∑ωkpk。
4.根据权利要求1所述的一种基于知识图谱的关联交易挖掘识别方法,其特征在于,所述S2具体包括:
S21:对所述可信数据进行实体抽取和实体间对应关系抽取,利用抽取后得到的实体和实体间对应关系构建实体,关系,实体的三元组;
S22:将S21中的三元组导入图数据库中,将实体生成为节点,并给节点赋予节点属性,将关系生成为对应节点间的关系,并给关系赋予关系属性,得到初步知识图谱。
5.根据权利要求1所述的一种基于知识图谱的关联交易挖掘识别方法,其特征在于,所述S3具体包括:
S31:查找满足关联规则的节点属性和关系属性,获取与节点属性对应的具有关联关系的节点对,并构建节点,关联关系,节点的三元组;
S32:根据S31中的三元组,为图数据库中相应的节点对增加关联关系,获得完善知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于民生科技有限责任公司,未经民生科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010229331.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于动态模板获取规范化文档的方法及装置
- 下一篇:电子设备