[发明专利]一种支持高阶邻近性的大规模网络嵌入方法与装置在审
申请号: | 202110589783.1 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113312842A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 李建欣;季诚;彭浩;刘崇鹏;孙庆赟;傅星珵 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F17/16;G06N3/04;G06N3/08;G06F111/02;G06F111/08 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 邻近 大规模 网络 嵌入 方法 装置 | ||
本发明通过网络技术领域的方法,实现了一种支持高阶邻近性的大规模网络嵌入方法与装置。方法包括四个步骤:步骤一:应用随机游走器,获取数据样本;步骤二:利用样本,提取局部相似性和全局等价性;步骤三:通过联合优化器同时学习局部相似性和全局等价性,综合步骤二中的高阶邻近信息,计算联合目标函数后,进行随机梯度下降优化,更新模型参数和嵌入向量;步骤四:重复上述过程,直至达到设定迭代次数,最后输出包含高阶临近性质的嵌入向量。其中随机游走器可以直接构造高阶临近矩阵、采用降低成本的随机游走方式或采用重启式随机游走器的方法实现。这一方法能够保留局部相似性和全局等价性,以及高阶邻近信息的同时,解决空间和计算的问题。
技术领域
本发明涉及网络技术领域,尤其涉及一种支持高阶邻近性的大规模网络嵌入方法与装置。
背景技术
网络嵌入是一种在低维空间中用向量来表示真实网络中实体(即网络中的节点)的重要技术,近年来受到学术界和业界越来越多的关注。这样的嵌入向量可以用于各种网络信息挖掘任务,如实体分析(如在社交网络中,预测用户的性别)、关系预测(如在引用网络中,推测一篇论文会引用哪些其它文章)、相似性搜索(如在社交网络中,匹配和当前用户喜好类似的用户)等。网络嵌入是任意基于网络进行的分析应用的基础,在网络学习领域有着举足轻重的地位。
网络嵌入的一个基本要求是,学习到的实体对应向量应蕴含网络结构信息。基于此,许多网络嵌入方法被提出,以保留从实体间关系中所提取的、表达了网络局部结构的一阶邻近性,或进一步保留邻域结构相似性的二阶邻近性。
具体而言,一阶邻近通常意味着现实网络中两个实体直接的相似性。例如,在一个社交网络中彼此是朋友的人通常有相似的兴趣;互联网中,相互添加对方链接的两个网站,趋向于讨论相同的话题。二阶邻近则捕获了实体间的两步可达性,一个自然的直觉是,拥有相似邻居的实体通常彼此相似。例如,在社交网络中,拥有相似朋友的人通常会有相似的兴趣,从而成为朋友;在词的共现网络中,总是与同一组词共现的两个词通常具有相近的语义。
尽管这些方法很成功,但近年来,越来越多的研究已经证明,除了直接由边连接和相同邻居表示的一阶和二阶邻近性外,高阶邻近性在捕获网络的底层结构信息方面也非常重要,理由如下:
1)不同的邻近度从不同的层次描述了网络的结构,以不同的粒度提供有价值的信息。低邻近度或特定邻近度的嵌入,在不同网络的泛化性上表现得并不好。
2)现实世界的网络通常非常稀疏,通常只有较少的边(如社交网络,1条边代表1个好友关系,而好友数量和整个网络中的总用户数相比,是几乎可以忽略的)。因此,一阶甚至二阶邻近都不足够反应实体间的深层关系。故而协同高阶邻近来获取更多有效信息是十分必要的。
高阶(k阶)邻近相比一阶、二阶邻近捕获了更多的全局结构,探索了每对实体之间的k步(k≥3)关系。对于每个实体对(vi,vj),高阶邻近度可由实体vi到实体vj的k步(k≥3)转移概率来度量,也可以由实体vi到vj的k步(k≥3)路径的数量来反映。
但是高阶邻近的计算通常有着较高的空间和计算性能要求,不适用于大规模网络的应用。
发明内容
本发明的目的在于提供一种支持高阶邻近性的大规模网络嵌入方法与装置,以捕获具有高阶临近性语义的实体嵌入向量,提高网络实体分类、关系预测、智能推荐等多种下游任务的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110589783.1/2.html,转载请声明来源钻瓜专利网。