[发明专利]面向图数据的挖掘方法、装置、电子设备及可读存储介质在审
申请号: | 202210184010.X | 申请日: | 2022-02-24 |
公开(公告)号: | CN114840717A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 王平辉;陶敬;张宇超;吕昕远;孙毅刚;邢舒明;韩婷;赵俊舟 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06V10/762;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苟冬梅 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 数据 挖掘 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供了一种面向图数据的挖掘方法、装置、电子设备及可读存储介质,属于数据处理技术领域,本申请实施例通过简化图卷积神经网络,以主动学习的方式对图结构数据中每个图节点的中心度指标、代表性指标和信息熵指标进行综合计算,以得到每个图节点的价值得分,将所述价值得分最高的n个图节点作为主动学习本次迭代所挖掘出的待标注数据子集。本申请实施例能够快速高效的在大规模海量图结构数据中挑选出价值量高、信息量多的待标注数据子集,与此同时对价值量较低、信息量较少且相互冗余的图节点数据进行剔除,避免了数据分析人员直接对海量大数据的全量分析操作,节省了计算和存储资源并降低了人力成本。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种面向图数据的挖掘方法、装置、电子设备及可读存储介质。
背景技术
随着人工智能技术的发展,深度学习方法在图像、文本等数据上的智能应用取得了巨大的成功。但现实中存在许多具备图结构的数据,例如社交网络分析、智能电网分析和分子药物合成等等。研究人员为此提出了各种针对图结构数据的图卷积神经网络模型(Graph Convolutional Network,简称GCN),在搜索、推荐、药物研发等领域都进行了广泛的应用。
然而,GCN虽然能够在面向图结构数据的任务中发挥巨大的作用,但是在超大规模的图结构数据的背景之下,GCN为了达到较好的模型性能需要较多的标注数据集进行学习和训练,然而人为地进行图结构数据集的全量标注以供GCN更好的进行模型训练,在人力、物力以及时间开销等方面都是极大的。
因此,目前亟需一种针对图结构数据的数据挖掘方法,能够在开发成本有限的前提下,在海量图结构数据中高效快速地挖掘出价值量高、信息量多的待标注数据子集,并交由人工进行标注后作为GCN的训练数据集,为GCN实现更好的训练效果提供有效的数据支撑。
发明内容
本申请提供一种面向图数据的挖掘方法、装置、电子设备及可读存储介质,以解决难以高效快速地从海量图结构数据中挖掘出价值量高、信息量多的待标注数据子集的问题。
为了解决上述问题,本申请采用了以下的技术方案:
第一方面,本申请实施例提供了一种面向图数据的挖掘方法,所述方法包括:
将图结构原始数据集输入简化图卷积神经网络,以输出待标注数据子集;
其中,所述简化图卷积神经网络用于执行以下步骤:
对所述图结构原始数据集进行预处理,得到特征融合后的图结构数据;
计算所述图结构数据中每个图节点的中心度指标;
对所述图结构数据中的所有图节点进行聚类,得到多个聚类簇,并计算每个图节点在所属聚类簇中的代表性指标;
计算所述图结构数据中每个图节点的信息熵指标;
根据所述中心度指标、所述代表性指标和所述信息熵指标,得到每个图节点的价值得分;
将所述价值得分最高的n个图节点作为所述待标注数据子集。
在本申请一实施例中,对所述图结构原始数据集进行预处理,得到特征融合后的图结构数据,包括:
对所述图结构原始数据集进行预处理,得到图结构数据的特征矩阵、度矩阵和邻接矩阵;
针对所述图结构数据中的任一图节点,根据该图节点的K跳近邻内的所有图节点的所述特征矩阵、所述度矩阵和所述邻接矩阵进行特征融合,得到特征融合后的图结构数据。
在本申请一实施例中,计算所述图结构数据中每个图节点的中心度指标,包括:
根据以下公式,计算所述图结构数据中每个图节点的中心度指标:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210184010.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置