[发明专利]一种基于结合知识描述的神经网络的实体消歧的方法在审
申请号: | 202011467935.2 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112765983A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 刘光毅 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/02 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 赵以鹏 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结合 知识 描述 神经网络 实体 方法 | ||
1.一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,包括以下步骤:
步骤1:使用指称上下文文本和候选实体进行建模,计算指称上下文文本与候选实体的相似度;
步骤2:使用候选实体知识描述的文本信息与指称的上下文文本进行建模;
步骤3:对候选实体知识描述关键词提取;
步骤4:建立实体消歧的局部模型;
步骤5:建立实体消歧的全局模型;
步骤6:引入损失函数,训练找到步骤4中的目标式。
2.根据权利要求1所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤1,包括:对于指称m,选取大小为K的窗口作为其上下文c={ω1,ω2,ω3…ωk},T(m)作为候选实体生成,元素e∈T(m),利用得到候选实体的权重信息,其中A为参数,之后根据式c={ω∈c|u(ω)∈topR(u)}除去上下文中不重要的词语,对上下文信息进行枝剪到R≤K,后将筛减后的上下文权重信息重新归一化:
式中:ω为上下文向量,u(ω)为候选实体权重信息,exp[u(ω)]为上下文权重信息数学期望值,β(ω)为归一化枝剪后的下上文权重信息;
得到上下文向量xc以及其和各个候选实体向量之间的相似度,表示上下文与候选实体之间的相似度:
式中:xc为计算到的上下文向量,β(ω)为上文中计算的归一化枝剪后的下上文权重,xe为候选实体向量,B为参数矩阵,ψ(e,c)表示上下文与候选实体之间的相似度。
3.根据权利要求2所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤2,包括:将上下文以及候选实体知识描述信息进行编码,每个候选实体的实体知识描述信息同指称上下文进行结合,得到未规范化的注意力权重r代表第r个候选实体,i代表指称上下文的第i个编码向量,j代表候选实体知识描述的第j个编码向量;通过对增强后的局部推理信息进行池化,从而提取特征vr表示第r个候选实体知识描述与指称上下文结合得到的特征向量;S表示候选实体数量;预测模块对所有候选实体的相关度进行归一化,可以得到各个候选实体同指称的相关度概率:
4.根据权利要求3所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤3,包括:对实体知识描述页面的长度进行惩罚,以使得抽取时更关注实体知识描述页面信息少的实体;由实体知识描述页面长度K,知识库所有实体描述的平均页面长的S,平均从实体页面提取出的关键词个数lm以及长度惩罚参数λ得出惩罚后的长度:
式中:len(K)表示实体知识描述页面惩罚后的长度,K为当前实体知识描述页面长度,S为知识库所有实体的知识描述页面的平均长度,lm为平均要从实体知识描述页面提取出的关键词个数,λ为长度惩罚参数;抽取完的关键词属于词袋模型,故而通用匹配模型采用的输入编码方式是直接映射这些词语到词向量空间。
5.根据权利要求4所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤4,包括:结合知识库统计的指称与实体的先验概率分布得出局部模型:
式中:ψ(e,c)为上下文与候选实体之间的相似度,G(e,c)为(2)中的概率相关度消歧模型,为指称先验概率;
用于计算指称的上下文同指称的候选实体的分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011467935.2/1.html,转载请声明来源钻瓜专利网。