[发明专利]一种基于多标签网络的多向量表示学习方法在审
申请号: | 201811262282.7 | 申请日: | 2018-10-27 |
公开(公告)号: | CN109308497A | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 蒲菊华;刘壮;陈虞君;王悦 | 申请(专利权)人: | 北京航空航天大学;深圳北航新兴产业技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 冀学军 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多标签网络的多向量表示学习方法,该方法首先构建一个空的游走节点序列,然后采用基于node2vec随机游走方式采样以任意一个节点为起始节点的节点游走序列;接着采用负采样方法生成模型所需要的训练数据;最后采用基于Skip‑gram的浅层神经网络概率模型进行处理,并为每个节点维护若干个聚类集群,采用随机梯度下降方法不断迭代更新,最终得到网络节点的多向量表示以及全局向量表示。 | ||
搜索关键词: | 向量表示 标签网络 采样 迭代更新 方法生成 概率模型 节点维护 节点序列 起始节点 全局向量 神经网络 随机梯度 随机游走 网络节点 训练数据 构建 集群 聚类 浅层 学习 | ||
【主权项】:
1.一种基于多标签网络的多向量表示学习方法,其特征在于表示学习有如下步骤:步骤一,基于node2vec随机游走方法采样获取游走序列集合WALKS;步骤101:构建属于任意nodea节点的空的节点游走序列,记为所述节点游走序列用来存储所述nodea节点经随机游走走出来的游走节点;定义所述节点游走序列的最大序列位数为mw,mw的取值为70~100位;然后执行步骤102;步骤102:将所述nodea节点放入所述节点游走序列的第1位;然后执行步骤103;步骤103:获取属于所述nodea节点的全部邻居节点集,记为且邻居节点是指与nodea节点之间存在连边的节点集合;然后执行步骤104;表示nodea节点的第1个邻居节点,表示nodea节点的第2个邻居节点,表示nodea节点的任意一个邻居节点,表示nodea节点的最后一个邻居节点;f表示nodea节点的邻居节点标识号,F表示nodea节点的邻居节点总数,f∈F,F<A;步骤104:随机选择所述邻居节点集中的任意一个邻居节点放入所述节点游走序列的第2位;然后执行步骤105;步骤105:采用别名采样算法(alias sampling),根据二阶随机游走的跳转概率选取节点游走序列的第2位之后的所有游走节点,即得到属于nodea节点的节点游走序列;pos表示当前游走节点,src表示位于所述pos的上一个游走节点,dst表示位于所述pos的下一个游走节点;p表示跳入参数,q表示跳出参数,distsrc,dst表示位于所述pos的上、下游走节点之间的最短跳数距离;步骤106:对V={node1,node2,…,nodea,…,nodeo,…,nodeA}中的其他节点采用步骤101至步骤105,获得节点对应的节点游走序列;从而得到游走序列集合WALKS,且执行步骤201;步骤二,采用负采样方法生成模型所需的训练数据;步骤201:建立空的正样本队列Q正和空的负样本队列Q负,所述Q正、所述Q负分别用于存放训练模型所需要的正采样数据和负采样数据,然后执行步骤202;步骤202:设立邻居窗口大小,记为WD,然后执行步骤203;对第一任意节点游走序列中的任意序列-节点设立邻居窗口大小WD,认为在节点游走序列中与任意序列-节点的距离小于WD的全部节点为正样本节点;每次对任意序列-节点获取属于所述的2倍WD的相邻-游走节点集,记为且表示在相邻-游走节点集中最小标识号的节点。表示在相邻-游走节点集中最大标识号的节点;d表示节点游走序列中节点的标识号;D表示节点游走序列中节点的总数。表示在相邻-游走节点集中除和以外的任意一个节点,简称序列—相邻节点。下角标l表示不是最大也不是最小节点的标识号,即除这2个节点之外的其他节点标识号。步骤203:采用任意两个网络节点与正负样本标识构成一个三元组,执行步骤204;对于序列-相邻节点与任意序列—节点构成一个三元组,即其中δ=+1代表该三元组为正样本,反之δ=‑1则表示该三元组为负样本。对网络中所有节点V={node1,node2,…,nodea,…,nodeo,…,nodeA}进行采样,每次从网络中选取任意两个节点,选取的两个节点可以是相邻的,也可以是不相邻的,即第一任意节点nodea,第二任意节点nodeo。如果两个节点之间不存在连边且两个随机选取的节点不相同(nodea≠nodeo),则将任意两个节点nodea、nodeo组成三元组(nodea,nodeo,‑1)存入负样本队列Q负中,即如果两个节点之间存在连边((nodea,nodeo)∈E),或者两个随机选取的节点相同(nodea=nodeo),则将任意两个节点nodea、nodeo组成三元组(nodea,nodeo,+1)存入正样本队列Q正中,即步骤204:设立一个正负样本比例参数β,假设正样本队列Q正中三元组个数为np,那么Q负中的三元组数量等于β×np;将得到的正样本队列Q正与负样本队列Q负合并在一起,得到一个新的样本队列Q新={Q1,...,Q(1+β)×np};Q1表示新的样本队列Q新中的最小标识号的三元组。Q(1+β)×np表示新的样本队列Q新中的最大标识号的三元组。下标(1+β)×np代表样本队列Q新中包含有(1+β)×np个三元组。步骤205:将新的样本队列Q新={Q1,...,Q(1+β)×np}中的所有元素打乱顺序,得到乱序的样本队列Q排序={Q1‑排序,...,Q(1+β)×np‑排序},执行步骤301;步骤三,采用基于Skip‑gram的神经网络方法来构建概率模型;为了方便说明构建概率模型将中的属于第一任意节点nodea的正样本-节点为将中的属于第一任意节点nodea的负样本-节点为概率模型的构建过程包括:步骤301:针对所述Q排序={Q1‑排序,...,Q(1+β)×np‑排序},每次选择一个三元组作为一对节点放入神经网络概率模型中进行学习,执行步骤302;选择出的一个三元组记为(nodea,nodeo,δ);步骤302:对于给定的nodea记它在节点游走序列中在窗口大小WD之内的部分记为且根据计算所述nodea在节点游走序列中的邻居向量表示,记为vneighbor(nodea),且η表示从中选取的一个游走节点;vg(η)表示游走节点η的全局向量;执行步骤303;步骤303:为nodea维护若干个聚类集群,记第r个聚类中心为μ(nodea,r),其值为第r个聚类中的所有邻居向量的平均,并记此聚类集群中的邻居向量个数为num(nodea,r),计算所述nodea的每个聚类中心μ(nodea,r)与其邻居向量vneighbor(nodea)之间的相似程度sim(μ(nodea,r),vneighbor(nodea)),然后执行步骤304;r表示聚类集群的标识号;为nodea所设定的聚类集群个数r(nodea)由超参数λ来确定,初始化每个节点为1个聚类集群;步骤304:根据所述的nodea的每个聚类中心μ(nodea,r)与其邻居向量vneighbor(nodea)之间的相似程度来为所述nodea预测聚类标签;如果(这里λ为模型所设定的超参数),则为所述nodea重新生成一个聚类集群r(nodea)+1,并将所述nodea的聚类标签记为且将所述预测为否则然后执行步骤305;聚类中心μ(nodea,r)与其邻居向量vneighbor(nodea)之间的相似程度sim(μ(nodea,r),vneighbor(nodea))由它们之间的余弦值来衡量,其值越接近1说明越相似。步骤305:将nodea的第个标签向量设定为它所属的聚类中心即更新节点nodea第个聚类中心这是由于新的邻居向量vneighbor(nodea)加入到了这个聚类集群中,并且更新此聚类集群中的向量个数为步骤306:在给定节点nodea的第个标签向量和其在节点游走序列中在窗口大小WD之内的部分的节点之后,计算属于nodea的正样本-节点(即三元组(nodea,nodeo,δ))为正样本的概率和属于第一任意节点nodea的负样本-节点(即三元组(nodea,nodeo,δ))为负样本的概率Pneg(nodea,nodeo,δ)=1‑Ppos(nodea,nodeo,δ),利用δ将正负样本合并放入关于网络节点分布式表示的损失函数中,并进行损失函数的计算,得到全局损失函数J(θ),执行步骤307;步骤307:采用随机梯度下降算法更新节点nodea的第个标签向量以及与节点nodea相关的正负样本的全局向量vg(η),最终得到网络中任意节点nodea的r(nodea)个标签向量全局向量vg(nodea)以及每个聚类集群中的邻居向量个数执行步骤308;步骤308:设定任意节点nodea的第个聚类集群中的邻居向量个数为节点nodea的第个标签向量的权重,将属于任意节点nodea的所有标签向量加权平均,得到属于nodea的加权向量,记为NP(nodea),且
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;深圳北航新兴产业技术研究院,未经北京航空航天大学;深圳北航新兴产业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811262282.7/,转载请声明来源钻瓜专利网。