[发明专利]一种用于互联网服务的实体链接方法、装置及存储介质有效
申请号: | 202110132929.X | 申请日: | 2021-02-01 |
公开(公告)号: | CN112463914B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 宋怡晨;李爱平;贾焰;周斌;涂宏魁;王晔;赵晓娟;刘子牛;李晨晨;马锶霞;王昌海;汪天翔;陈恺;喻承 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/332;G06F16/335;G06F16/36;G06N3/08;G06N3/04;G06N5/02 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 陈松 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 互联网 服务 实体 链接 方法 装置 存储 介质 | ||
1.一种用于互联网服务的实体链接方法,其特征在于,包括以下步骤:
步骤1:提取用户在互联网服务使用中浏览或输入的内容,进行数据预处理,获取所有待链接实体和待链接实体的上下文,在wikipedia知识库中确定待链接实体的候选实体集;
步骤2:分别基于wikipedia知识库和wikidata知识库构造训练集,训练得到于wikipedia知识库和wikidata知识库中实体的向量表示,分别从中获取候选实体的向量表示;
步骤3:通过词嵌入获得待链接实体的上下文中词的向量表示;
步骤4:构建并训练实体链接模型,分别将候选实体、待链接实体上下文中词的向量表示输入实体链接模型,确定候选实体集合中各候选实体与待链接实体的相似度得分;
步骤5:将候选实体集合中得分最高的候选实体视为链接实体返回,与待链接实体相链接,并返回得分最高的前N个候选实体作为参考选项;
在步骤2中,具体包括以下步骤:
步骤201:对wikipedia知识库进行清洗,获得包含文本和实体的数据集,构建wikipedia训练集;
对wikidata知识库进行清洗,获得包含知识图谱三元组的数据集,构建wikidata训练集;
步骤202:对于wikipedia训练集,利用负采样的方法,训练得到wikipedia知识库的基于文本的实体向量表示集合e_text;
对于wikidata训练集,采用知识图谱嵌入方法,构建嵌入模型,通过wikidata训练集训练嵌入模型,得到wikidata知识库的基于结构的实体向量表示集合e_triple;
步骤203:分别从基于文本的实体向量表示集合e_text和基于结构的实体向量表示集合e_triple中获取候选实体集中候选实体的向量表示;
在步骤4中,根据深度神经网络构建并训练实体链接模型,所述实体链接模型包括:
局部相似度得分计算层,用于计算待链接实体的局部上下文中词和候选实体相似度的局部得分,表示为:
其中,表示候选实体的向量表示,B为可训练的对角矩阵参数,是待链接实体上下文词向量通过attention机制求得的待链接实体
的向量表示,表示注意力机制求得的词权重,为词的向量表示,表示待链接实体的上下文的词集合,
分别将从基于文本的实体向量表示集合e_text中获得候选实体的向量表示、从基于结构的实体向量表示集合e_triple中获得候选实体的向量表示,与待链接实体的上下文中词的向量表示一起输入局部相似度得分计算层,得到候选实体的基于文本的局部得分和基于结构的局部得分;
全局一致性得分计算层,用于计算待链接实体的候选实体和同文档中其他待链接实体的候选实体之间的一致性得分,表示为:
其中C为可训练的对角矩阵参数,和对应为不同待链接实体m的候选实体,表示候选实体的向量表示,表示候选实体的向量表示,n为待链接实体数,
分别将从基于文本的实体向量表示集合e_text中获得候选实体的向量表示、从基于结构的实体向量表示集合e_triple中获得候选实体的向量表示输入全局一致性得分计算层,得到候选实体的基于文本的全局得分和基于结构的全局得分;
循环置信传播推理层,所述循环置信传播推理层采用循环置信传播的方法同时对输入的候选实体的局部得分和全局得分进行推理,得到训练文档D的整体最优链接得分,表示为:
将得到基于文本的局部得分、基于结构的局部得分、基于文本的全局得分和基于结构的全局得分一起输入循环置信传播推理层,得到候选实体的整体最优链接得分;
全连接输出层, 用于串联候选实体的基于文本的局部得分、基于结构的局部得分、整体最优链接得分以及候选实体的先验概率p(e|m),通过MLP得到候选实体的最终得分,
将候选实体的基于文本的局部得分、基于结构的局部得分、整体最优链接得分以及候选实体的先验概率p(e|m) 一起输入全连接输出层,输出得到候选实体的最终得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110132929.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仿生小肠绒毛电化学细胞传感器及其应用
- 下一篇:一种燃油供应系统及飞行器