[发明专利]一种图存储优化方法、装置和电子设备在审
申请号: | 201910930670.6 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110781313A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 黄建庭;宋荣鑫;周鹏;孔海明 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/901 |
代理公司: | 11691 北京清诚知识产权代理有限公司 | 代理人: | 乔东峰 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图谱 折叠 关联节点 计算机可读介质 存储优化 电子设备 关系优化 用户信息 计算量 构建 直连 存储 查询 优化 | ||
本发明公开了一种图存储优化方法、装置、电子设备及计算机可读介质,包括:获取用户信息构建知识图谱,所述知识图谱包括表示实体或概念的节点和表示关系的边;设立折叠规则以选取所述知识图谱中节点作为折叠节点;识别所述折叠节点的一度关联节点;建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系;基于所述一度扩边关系优化所述知识图谱结构进行存储。本发明能够通过在折叠节点的一度关联节点之间建立直连关系以优化知识图谱结构,减少进行知识图谱查询的计算量。
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种图存储优化方法、装置、电子设备及计算机可读介质。
背景技术
在基于大数据的金融反欺诈场景中,通过知识图谱获取用户的真实信息、深度特征,能够对用户注册的虚假信息进行校验。因此,在反欺诈场景中,知识图谱是非常有效的手段。
折叠查询是通过知识图谱获取用户深度特征的常用的操作。在十亿顶点,百亿级边的超级大图里面,通过现有的查询算法做二度的折叠查询,即非折叠四度查询规模,计算量非常大,折叠查询操作占据过多计算资源,且现有的折叠查询计算速度较慢,无法满足性能要求。在现有技术中,技术人员往往通过改进查询算法来减少查询计算量,对于通过优化知识图谱存储结构来减少查询计算量的尝试较少。
发明内容
本发明要解决的技术问题是如何通过折叠知识图谱而减少查询过程中的计算量。
本发明的一方面提供一种图存储优化方法,包括:获取用户信息构建知识图谱,所述知识图谱包括表示实体或概念的节点和表示关系的边;
设立折叠规则以选取所述知识图谱中节点作为折叠节点;
识别所述折叠节点的一度关联节点;
建立同一所述折叠节点的所述一度关联节点两两之间一度扩边关系;
基于所述一度扩边关系优化所述知识图谱结构进行存储。
根据本发明的一种优选实施方式,所述设立折叠规则,进一步包括:
选择具有相同属性的节点为折叠节点;和/或
获取所述节点的一度分析特征,选择具有相同一度分析特征的节点为折叠节点。
根据本发明的一种优选实施方式,所述一度分析特征包括节点的点入度、点出度和/或利用机器学习模型获取的特征。
根据本发明的一种优选实施方式,所述利用机器学习模型获取的特征进一步可包括社群边界特征。
根据本发明的一种优选实施方式,所述基于所述一度扩边关系优化所述知识图谱结构进行存储,进一步包括:
以所述一度扩边关系为所述知识图谱新边;
将所述折叠节点属性及所述折叠节点与所述一度关联节点之间的关系属性作为所述新边的属性;
按照所述新边及所述新边的属性优化所述知识图谱结构进行存储。
根据本发明的一种优选实施方式,还包括:
设置检索规则,所述检索规则可通过检索所述新边的属性获取折叠点属性以及所述折叠节点与所述一度关联节点之间的边的属性。
根据本发明的一种优选实施方式,还包括:
知识图谱的存储方式具体可包括:列值分布式存储。
根据本发明的一种优选实施方式,所述列值分布式存储,其用于存储数据的数据库包括:HBase数据库、Cassandra数据库。
根据本发明的一种优选实施方式,还包括:
针对优化后的知识图谱结构建立查询算法;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910930670.6/2.html,转载请声明来源钻瓜专利网。