[发明专利]一种基于神经网络的长文本指代消解方法和装置在审
申请号: | 202011437239.7 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112633014A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 洪万福;钱智毅;赵青欣 | 申请(专利权)人: | 厦门渊亭信息科技有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06N3/04;G06N3/08 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福建省厦门市软*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 文本 指代 消解 方法 装置 | ||
1.一种基于神经网络的长文本指代消解方法,其特征在于:包括以下步骤:
步骤S1:输入长文本;
步骤S2:抽取长文本中的指代部分信息、指代部分周围词信息、原文信息、被指代部分信息、被指代部分周围词信息,进行向量化表示;并将向量化表示的指代部分信息、指代部分周围词信息、原文信息、被指代部分信息、被指代部分周围词信息分别嵌入位置信息,对应输出指代部分向量、指代部分周围信息向量、原文部分向量、被指代部分向量和被指代部分周围信息向量;
步骤S3:将指代部分向量与指代部分周围信息向量进行多头注意力机制计算,再使得到的结果继续与原文部分向量采用多头注意力机制计算,得到第一特征结果;
步骤S4:将被指代部分向量、被指代部分周围信息向量进行多头注意力机制计算,再使得到的结果继续和原文部分向量进行多头注意力机制计算,得到第二特征结果;
步骤S5:将步骤S3和步骤S4中获得的第一特征结果和第二特征结果连接组成一个综合结果,并利用Softmax层将它映射在判别空间中,进行指代与否的判断。
2.如权利要求1所述的基于神经网络的长文本指代消解方法,其特征在于:所述步骤S3具体包括:以指代部分向量为第一多头注意力模型的查询,以指代部分周围信息向量为键和值,第一多头注意力模型的输出作为第二多头注意力模型的查询,原文部分向量作为第二多头注意力模型的键和值,第二多头注意力模型输出第一特征结果。
3.如权利要求1所述的基于神经网络的长文本指代消解方法,其特征在于:所述步骤S4具体包括:以被指代部分向量为第三多头注意力模型的查询,以被指代部分周围信息向量为键和值,第三多头注意力模型的输出作为第四多头注意力模型的查询,原文部分向量作为第四多头注意力模型的键和值,第四多头注意力模型输出第二特征结果。
4.一种基于神经网络的长文本指代消解装置,其特征在于:包括长文本抽取模块、连接层、Softmax层和四个多头注意力模型;
所述长文本抽取模块用于从长文本中抽取指代部分信息、指代部分周围词信息、原文信息、被指代部分信息、被指代部分周围词信息,进行向量化表示;并将向量化表示的指代部分信息、指代部分周围词信息、原文信息、被指代部分信息、被指代部分周围词信息分别嵌入位置信息,并输出指代部分向量、指代部分周围信息向量、原文部分向量、被指代部分向量、被指代部分周围信息向量;
所述四个多头注意力模型的输入、输出的连接关系为:
第一多头注意力模型的查询的输入为指代部分向量,其键和值的输入为指代部分周围信息向量;第一多头注意力模型的输出为第二多头注意力模型的查询的输入;第二多头注意力模型的键和值的输入为原文部分向量;第二多头注意力模型输出第一特征结果;
第三多头注意力模型的查询的输入为被指代部分向量,其键和值的输入为被指代部分周围信息向量,第三多头注意力模型的输出为第四多头注意力模型的查询的输入,第四多头注意力模型的键和值的输入为原文部分向量,第四多头注意力模型输出第二特征结果;
所述连接层用于将所述第一特征结果和所述第二特征结果连接组成一个综合结果;
所述Softmax层用于将综合结果映射在判别空间中,进行指代与否的判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门渊亭信息科技有限公司,未经厦门渊亭信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011437239.7/1.html,转载请声明来源钻瓜专利网。