[发明专利]一种基于堆叠多头特征抽取器的实体消歧方法有效
申请号: | 202110399962.9 | 申请日: | 2021-04-14 |
公开(公告)号: | CN112989804B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 陈权;张鸿彬;张伟文;朱远发;赖泰驱 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/295;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 苏云辉 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 堆叠 多头 特征 抽取 实体 方法 | ||
1.一种基于堆叠多头特征抽取器的实体消歧方法,其特征在于,包括:
生成预设的实体指称项的候选实体列表;所述候选实体列表具有多个候选实体;
获取所述实体指称项的上下文信息;
采用预设堆叠多头特征抽取器获取所述候选实体列表中每个所述候选实体与所述上下文信息之间的关联信息,并基于所述关联信息计算所述候选实体的局部分数;具体的:采用预设堆叠多头特征抽取器获取每个所述候选实体与所述上下文信息之间的关联信息;采用所述关联信息更新所述候选实体的向量矩阵,得到更新向量矩阵;根据所述更新向量矩阵和所述上下文信息计算所述候选实体的局部分数;其中,所述堆叠多头特征抽取器用于更新所述候选实体的向量矩,包括n层神经网络,前(n-1)层的输入包括上下文单词的向量矩阵K、候选实体的初始向量矩阵Ql和前馈候选实体的初始向量矩阵Q'l,其中,l为神经网络层数索引;采用缩放点积注意力计算处理所述上下文单词的向量矩阵、候选实体的初始向量矩阵和前馈候选实体的初始向量矩阵,得到所述更新向量矩阵;当进行下一次更新时,所述更新向量矩阵作为所述前馈候选实体的初始向量矩阵;
第n层神经网络的输入包括上下文单词的向量矩阵K、候选实体的初始向量矩阵Ql,同样采用缩放点积注意力计算处理所述上下文单词的向量矩阵、候选实体的初始向量矩阵,得到最终的更新向量矩阵Qfinal;
计算每个所述候选实体的全局分数;其中,所述全局分数的计算过程为:获取全文实体向量矩阵;计算所述全文实体向量矩阵与所述更新向量矩阵之间的第二相似度;采用所述第二相似度计算候选实体的全局分数;
计算每个所述候选实体的全局邻居分数;其中,所述全局邻居分数的计算过程为:获取全文邻居实体向量矩阵;计算所述全文邻居实体向量矩阵与所述更新向量矩阵之间的第三相似度;采用所述第三相似度计算候选实体的全局邻居分数;
采用所述局部分数、所述全局分数和所述全局邻居分数,计算正确实体;
链接所述正确实体与所述实体指称项,对所述实体指称项进行实体消歧。
2.根据权利要求1所述的方法,其特征在于,所述候选实体包括第一候选实体和第二候选实体;所述生成预设的实体指称项的候选实体列表的步骤,包括:
获取特征信息;
基于所述特征信息生成初始候选实体;
计算每个所述初始候选实体的先验概率;
基于所述先验概率获取第一候选实体;
获取第二候选实体;
采用所述第一候选实体和所述第二候选实体,生成候选实体列表。
3.根据权利要求2所述的方法,其特征在于,所述获取第二候选实体的步骤,包括:
获取预训练词向量和预训练实体向量;
采用所述预训练词向量和所述预训练实体向量计算所述实体指称项的上下文嵌入信息;
采用所述上下文嵌入信息和预设候选实体嵌入信息计算候选实体分数;
基于所述候选实体分数获取第二候选实体。
4.根据权利要求3所述的方法,其特征在于,所述根据所述更新向量矩阵和所述上下文信息计算所述候选实体的局部分数的步骤,包括:
获取所述上下文信息的上下文单词向量矩阵;
计算所述上下文单词向量矩阵与所述更新向量矩阵之间的第一相似度;
采用所述第一相似度计算所述候选实体的局部分数。
5.根据权利要求4所述的方法,其特征在于,所述采用所述局部分数、所述全局分数和所述全局邻居分数,计算正确实体的步骤之前,还包括:
计算所述实体指称项和所述候选实体的类型相似分数。
6.根据权利要求5所述的方法,其特征在于,所述采用所述局部分数、所述全局分数和所述全局邻居分数,计算正确实体的步骤,包括:
采用所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率,计算所述候选实体的正确实体概率;
将正确实体概率最高的候选实体确定为正确实体。
7.根据权利要求6所述的方法,其特征在于,所述采用所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率,计算所述候选实体的正确实体概率的步骤,包括:
将所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率输入预设的两层前馈神经网络,输出所述候选实体的正确实体概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110399962.9/1.html,转载请声明来源钻瓜专利网。