[发明专利]一种基于多标签网络的多向量表示学习方法在审
申请号: | 201811262282.7 | 申请日: | 2018-10-27 |
公开(公告)号: | CN109308497A | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 蒲菊华;刘壮;陈虞君;王悦 | 申请(专利权)人: | 北京航空航天大学;深圳北航新兴产业技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 冀学军 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量表示 标签网络 采样 迭代更新 方法生成 概率模型 节点维护 节点序列 起始节点 全局向量 神经网络 随机梯度 随机游走 网络节点 训练数据 构建 集群 聚类 浅层 学习 | ||
本发明公开了一种基于多标签网络的多向量表示学习方法,该方法首先构建一个空的游走节点序列,然后采用基于node2vec随机游走方式采样以任意一个节点为起始节点的节点游走序列;接着采用负采样方法生成模型所需要的训练数据;最后采用基于Skip‑gram的浅层神经网络概率模型进行处理,并为每个节点维护若干个聚类集群,采用随机梯度下降方法不断迭代更新,最终得到网络节点的多向量表示以及全局向量表示。
技术领域
本发明涉及一种表示学习方法,更特别地说,是指一种基于多标签网络的多向量表示学习方法。
背景技术
如今,信息网络在社交网络、生物网络、引用网络和电信网络等形式的大量实际应用中变得无处不在。分析这些网络在许多学科的各种新兴应用中起着至关重要的作 用。众所周知,网络数据通常非常复杂,因此难以处理。为了有效地处理网络数据, 第一个关键挑战就是找到有效的网络数据表示。
目前已经提出了很多网络表示学习算法,如“DeepWalk:Online Learning ofSocial Representations”译文为:深度行走:社交表示的在线学习,Bryan Perozzi 等,26Mar 2014;该文献中使用word2vec方法对网络的表示进行学习。它将网 络嵌入到潜在的低维空间中,该空间能够保持网络的结构和属性,使得网络的原始节 点可以表示为低维向量,以此可以作为任何基于矢量的机器学习算法的特征,例如节 点分类,链路预测等。
但是,先前的一些表示学习方法存在着一些明显的缺陷:每个节点仅具有一个向量表示,这对于一些多标签网络的数据集来说,一个向量将会是这些节点标签的综合 表示,而无法体现出每个标签所独有的特性,进而无法更好的完成多标签分类任务。 这里多标签是指网络中的一个节点拥有多种属性,表现出不同的功能。例如,纽约时 报的新闻语料库可能被同时标记为宗教、政治、教育、金融和教育等主题。如果使用 一个向量来表示,将会是对这些不同主题的一个平均,无法学习出每个主题自己所独 有的向量表示,进而无法完成多标签网络的分类、分析等工作。
发明内容
为了解决网络节点的多标签表示学习的问题,本发明提出了一种基于多标签网络的多向量表示学习方法。在本发明中,网络中的每个节点可以具有多个标签向量和一 个全局向量以供进一步研究。首先借助基于node2vec随机游走统计模型对网络结构 进行采样,得到网络节点邻居信息;采样完成的节点游走序列由一连串的节点组成, 每一次对下一个游走节点的选择都是随机的;在完成所有网络节点的负采样之后,本 发明构建了一个基于Skip-gram模型的浅层神经网络框架,并通过当前节点信息来 预测周围的邻居节点;其次,为每一个游走节点维护多个聚类集群,并通过其游走- 邻居节点的嵌入来生成属于当前节点的节点标签(简称为聚类标签),所述聚类标签 被预测为最接近所述游走邻居向量的集群,标签向量被预测为所述集群的中心。在预 测聚类标签和标签向量之后,本发明对该标签向量进行不断地迭代更新直至收敛。最 后,为了充分利用这些标签向量,本发明为它设置权重,为每个节点形成一个新的向 量表示。
本发明的一种基于多标签网络的多向量表示学习方法,其特征在于表示学习有如下步骤:
步骤一,基于node2vec随机游走方法采样获取游走序列集合WALKS;
步骤101:构建属于任意节点nodea的空的节点游走序列,记为所述节点游走序列用来存储所述nodea节点经随机游走走出来的游走节点;定义所 述节点游走序列的最大序列位数为mw,mw的取值为70~100位;然后执 行步骤102;
步骤102:将所述nodea节点放入所述节点游走序列的第1位;然后执行 步骤103;
步骤103:获取属于所述nodea节点的全部邻居节点集,记为且邻居节点是指与nodea节点之间存在连边的 节点集合;然后执行步骤104;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;深圳北航新兴产业技术研究院,未经北京航空航天大学;深圳北航新兴产业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811262282.7/2.html,转载请声明来源钻瓜专利网。