[发明专利]复杂语义增强异构信息网络表示学习方法和装置有效
申请号: | 202011351571.1 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112182511B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 胡艳丽;何春辉;方阳;彭娟;张鹏飞 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06N3/04;G06N3/08 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 复杂 语义 增强 信息网络 表示 学习方法 装置 | ||
1.一种复杂语义增强异构信息网络表示学习方法,其特征在于,所述方法包括:
从文本数据中提取异构信息网络,抽取所述异构信息网络蕴含的元图;所述异构信息网络包括:节点、节点类型、节点间关系以及关系的类型;所述文本数据为Word文本和TXT文本;
根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率;
根据所述转移概率,得到语义路径集合;所述语义路径集合中包括:多条由不同类型节点和关系组成的语义路径;
查询所述语义路径集合中包含共享节点的两条路径,如果所述共享节点对应的节点类型属于给定节点类型,则将两条路径在所述共享节点处进行级联;如果所述共享节点对应的节点类型不属于给定节点类型,并且根据给定节点类型压缩得到的路径相似度超过阈值,则将两条路径在所述共享节点处进行级联;
当级联后的路径达到预设长度或者任意两条路径没有共享节点时,长程语义路径挖掘终止,得到长程语义路径集合;长程语义路径集合中包括:随机游走生成的语义路径和挖掘得到的长程语义路径;
根据所述长程语义路径集合,进行异构信息网络的表示学习。
2.根据权利要求1所述的方法,其特征在于,根据所述元图引导在所述异构信息网络中进行随机游走,以得到所述异构信息网络中节点转移至其邻居节点的转移概率,包括:
根据所述元图,计算节点类型
根据所述异构信息网络,计算节点与邻居节点类型之间的关系数量,得到根据所述异构信息网络在第
其中,表示类型为
3.根据权利要求1所述的方法,其特征在于,根据所述长程语义路径集合,进行异构信息网络的表示学习,包括:
设置需要考虑的邻居节点上下文窗口大小
其中,节点的邻居节点出现概率最大化的优化目标函数为:
其中,
假设窗口中邻居节点出现的概率只与节点相关,因此可以得到
对于异构信息网络,窗口中邻居节点出现的概率与节点的类型相关,即:
其中,表示节点的类型;
对概率函数采用softmax建模,得到:
利用语义路径集合,计算窗口大小内每个上下文节点对的出现频率进而采用梯度下降方式学习参数,迭代并优化如下目标函数:
其中,表示优化目标;
当达到预设的迭代条件时,得到训练好的神经网络模型,将待表示节点及其上下文邻居节点集输入训练好的神经网络模型,输出待表示节点的分布式向量表示结果。
4.根据权利要求3所述的方法,其特征在于,还包括:
将所述目标函数采用负样本进行优化,得到近似目标函数为:
其中,表示节点的分布式向量表示结果,表示当前节点的分布式向量表示结果,σ(⋅)是sigmoid函数,是当前节点采样的第
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定参数更新函数为:
其中,表示神经网络模型的参数,表示学习率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011351571.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据记录方法及装置
- 下一篇:一种智能锁用电源的控制系统