[发明专利]一种针对异质信息网络的表示学习方法在审
申请号: | 201911036371.4 | 申请日: | 2019-10-29 |
公开(公告)号: | CN110852437A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 喻梅;刘莹;于健;于瑞国;李雪威;徐天一;赵满坤;刘春凤 | 申请(专利权)人: | 天津大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘子文 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 信息网络 表示 学习方法 | ||
本发明公开一种针对异质信息网络的表示学习方法;不同于传统的信息网络,异质信息网络中包含了更加丰富和语义和结构信息,无疑对充分捕获上述信息造成困难。本发明利用目前在序列数据处理上表现优异的Bi‑RNN作为基准模型。首先在原始信息网络的数据文件中加入各节点的类型信息;然后,基于预定义的元路径进行节点间的随机游走,即信息采样;其次,通过考虑节点的间接邻居信息,捕获间接邻居节点之间潜在的依赖关系;接着,通过综合语义分析和大量的实验,反向确定前后向的权重关系;最后,利用多标签节点实验评估衡量本发明所提的针对异质信息网络的表示学习方法的有效性。
技术领域
本发明属于数据挖掘、自然语言处理和网络分析领域,涉及网络嵌入技术和单词嵌入技术,尤其是一种针对异质信息网络的表示学习方法。
背景技术
现实世界中的信息网络无处不在,如社交和通信网络(social andcommunication networks)、文献网络(citiation networks)和航空公司网络(airlinenetworks)等等。这些网络中往往存在着不止一种类型的节点或节点间边,如文献网络中包含作者author、论文发表场所venue和论文paper等类型节点,“发表”、“引用”等类型的节点间边。这种类型的网络被称为异质信息网络。针对其的分析和研究在最近几年里越来越多鉴于其能够保存网络中丰富的语义和结构信息。现实世界中的信息网络往往规模很大,无法直接对其进行分析挖掘。网络嵌入可以通过学习网络节点的低维稠密的向量表示来保存原始的大规模网络中的丰富信息,使得对信息网络的挖掘变得更加高效,学习到的表示同时可以很方便的服务于下游任务,如事件检测和推荐系统等。
信息网络嵌入可以很高效的将大规模信息网络中的信息转换为低维、稠密的向量表示,同时保留信息网络中丰富的语义和结构信息。早期的网络嵌入方法,如DeepWalk、LINE将信息网络看作同质信息网络,同时通过将短随机游走序列看作自然语言中语句、序列中节点看作文本中单词,利用神经语言模型skip-gram进行了节点嵌入。Skip-gram模型为具有相似上下文的单词产生相似表示。
传统方法并没有考虑到信息网络中节点的异质性的问题,近几年来针对异质信息网络嵌入的研究也越来越多。为利用元路径在异质信息网络表示学习中对语义和结构信息的保留能力,metapath2vec方法利用基于元路径的随机游走构造一个节点的异质邻居,同时利用异质skip-gram模型进行节点嵌入,从而得以对异质网络中的结构和语义关系同时建模。尽管metapath2vec方法的实验效果很高效,但依然使用传统的神经语言模型skip-gram进行表示学习。类似的,hin2vec方法提出不同的元路径可能具有不同的语义,并通过编码元路径和整个网络结构中包含的信息来学习有意义的表示。除对异质信息网络中元路径的研究,一些方法则针对特定类型的异质信息网络进行表示学习,如PTE方法学习预测性的文本嵌入。此外,一些研究通过将节点间不同类型的边嵌入到不同潜在空间来处理HIN中的异质信息。其中,HEER方法研究异质信息网络在嵌入学习中的综合转录问题。该方法利用边表示和异质度量方法来保留网络中的丰富信息,来解决不同类型边所带来的节点间的不兼容问题。PME方法引入独特的潜在空间建模节点和边来缓解已有度量学习方法的潜在几何不灵活性。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种针对异质信息网络的表示学习方法,能够高效利用现实世界的异质信息网络中存在的异质信息,同时充分捕获网络中存在的语义信息和结构信息,从而提高最终的网络嵌入效果。
本发明的目的是通过以下技术方案实现的:
一种针对异质信息网络的表示学习方法,包括以下步骤:
步骤一,将社交网络数据文件预处理,加入各个网络节点的类型信息;
步骤二,利用预处理后的数据文件,根据各网络节点的类型与节点间边的类型信息,在指定的元路径指导下,进行随机游走,得到每个网络节点的定长随机游走序列,完成对异质信息网络的信息采样;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911036371.4/2.html,转载请声明来源钻瓜专利网。