[发明专利]一种同质关系大图的摘要提取方法及系统在审
申请号: | 202110308958.7 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113139098A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 刘盛华;程学旗;周厚铨;刘财政;沈华伟 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06N3/04 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同质 关系 大图 摘要 提取 方法 系统 | ||
本发明提出一种同质关系大图的摘要提取方法及系统,包括:获取待摘要提取的关系图数据作为当前图数据,且该关系图数据为同质关系大图,并将该当前图数据中每个节点均看作超点;根据该当前图数据的邻接矩阵,通过局部敏感哈希对该当前图数据中节点进行分组;从组中随机选择多个超点对,分别计算该超点对若合并后和该关系图数据之间的差距,选择差距最小的超点对进行合并,得到重构图数据;输出该重构图数据作为摘要提取结果。
技术领域
本发明涉及数据挖掘领域,特别涉及一种同质关系大图的快速总结摘要及重构技术、装置。
背景技术
目前社交媒体已超越搜索引擎,成为互联网第一大流量来源,二者占比分别为46%和40%。关系图数据成为一种常见数据应用到许多科学和工程中,图可以表示成这样一种结构,即图G=(V,E)是一对集合:一组节点V表示实体和一组边E表示实体之间的关系或连接。在计算机科学中,网络包含节点和边缘;而在社会科学中,相应的术语则是行为者和关系,在本文中这两个术语具有同等意义。截至2020年第一季度,微信及WeChat的合并月活跃帐户数达12.025亿,这意味着微信正式成为中国首个月活跃用户超过10亿的应用,从除夕到初五,微信消息发送量同比增长64.2%、8.23亿人收发微信红包。截止2020年3月31日的一季度财报。传播最多的是“1万亿美元”,截止2020年3月31日止12个月,阿里平台GMV达人民币7.053万亿。过去12个月,有7.8亿国人在阿里平台购买产品或服务,阿里中国零售市场,移动月活跃用户数8.46亿,年度活跃买家7.26亿。这些平台的用户之间的发信关系或者购物关系构成图,如图1和图2所示,用户构成图中的节点,边构成用户之间的购物关系或者发信关系。在大多数情况下,图数据是由一个或多个生成过程创建的,它们不仅能够表示系统中的活动,还能够收集实体的观察结果。但是,由于这些大规模的图数据数据量非常庞大,难以处理、分析和理解,这给图数据挖掘应用程序带来了巨大的挑战。一个有效的技术来解决这些挑战是图摘要。给定一个图G,它的目的是找到G的一个简洁表示形式,即具有超节点和超边的摘要图(以图3为例)。摘要模型通常需要从摘要图中重构出图,因此重构方案是大多数摘要模型的核心。针对摘要总结的思想,当前的方法主要包括以下几类:
(1)邻接矩阵的误差:这类方法试图最小化原始图的邻接矩阵和重构图的邻接矩阵之间的一些误差度量,以达到最好的摘要总结效果。
(2)总边数:在这种方法中,目标函数定义为摘要图中的边数加上边校正信息,通过边数和校正信息,提高摘要总结的性能。
(3)编码长度:这类方法通常采用最小描述长度(MDL)原则,以编码总长度为目标函数。通常会在不同的编码方案下优化最小描述长度。
上面提到的方法主要集中在静态简单图和应用在某一类图数据上,无法具有普遍适用性。同时上述方法需要计算每一对节点之间的关系,以便于对图数据进行摘要总结,尽管存在一些方法可以优化和加速上述计算过程,但是计算复杂度依然较高,尤其是在面对大图数据时,这些方法普遍存在效率低、费时、需要占用较多内存等不足。
发明内容
本发明涉及数据挖掘领域,特别涉及一种同质关系大图的快速总结摘要及重构技术、装置,其核心思想是与常用的配置模型一样,同质即图中的节点类型相同,如社交网络中的节点的类型都为用户;而在电商购物网络中,部分节点代表顾客,部分节点代表商品,节点类型不同,即为异质图,本方法设置一些与节点的度成比例的超边,基于配置的分配方案(CR方案)通常可以嵌入到现有摘要总结方法并能改进现有的相关摘要方法的性能和效果;基于信息论中的最小描述长度(MDL)作为原理,以最小化摘要图和重建错误的成本。同时本方法设计了一种快速算法,称为DPGS算法,其基于局部敏感哈希(Locality SensitiveHashing:LSH)方法对大图的候选节点进行分组,并在组内进行贪婪合并以达到对图进行摘要总结的目的。在理论上,本方法证明了通过最小化重建误差来限制拉普拉斯特征值的扰动。
针对现有技术的不足,本发明提出一种同质关系大图的摘要提取方法,其中包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110308958.7/2.html,转载请声明来源钻瓜专利网。