[发明专利]基于注意力分布已知的抽象式神经网络生成摘要的方法在审
申请号: | 202010610681.9 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111753523A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 马晔;宗璐 | 申请(专利权)人: | 西交利物浦大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216 |
代理公司: | 南京艾普利德知识产权代理事务所(特殊普通合伙) 32297 | 代理人: | 陆明耀 |
地址: | 215121 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 分布 已知 抽象 神经网络 生成 摘要 方法 | ||
本发明提供一种基于注意力分布已知的抽象式神经网络生成摘要的方法,所述方法包括如下步骤:步骤S1,将源文本输入摘要模型,利用beam search生成多个候选摘要及相应的注意力分布,并经过摘要模型的编码后得到句向量;步骤S2,将所述句向量输入到预先训练好的注意力分布预测模型中,得到预测出的最优注意力分布;步骤S3,根据每个候选摘要的注意力分布与最优注意力分布的距离,计算各个候选摘要的注意力得分;步骤S4,根据每个摘要序列的条件概率以及注意力得分,计算各个候选摘要的最终得分;步骤S5,选择最终得分最高的候选摘要作为最终摘要。本发明得到的最终摘要更贴近源文本。
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于注意力分布已知的抽象式神经网络生成摘要的方法。
背景技术
Beam search算法是目前最常用的抽象式神经网络摘要的生成算法,其以最大化序列出现概率为前提逐字生成摘要,但是该算法存在着一些问题,比如说为了追求概率最大化,常常会生成常见的短语,反而忽略了源文本中的特有信息。
发明内容
鉴于目前现有技术的不足,本发明的目的在于提供一种基于注意力分布已知的抽象式神经网络生成摘要的方法,生成的摘要更贴近源文本。
为达到上述目的,本发明的实施例采用如下技术方案:
一种基于注意力分布已知的抽象式神经网络生成摘要的方法,所述方法包括如下步骤:
步骤S1,将源文本输入摘要模型,利用beam search生成多个候选摘要及相应的注意力分布,并经过摘要模型的编码后得到句向量;
步骤S2,将所述句向量输入到预先训练好的注意力分布预测模型中,得到预测出的最优注意力分布;
步骤S3,根据每个候选摘要的注意力分布与最优注意力分布的距离,计算各个候选摘要的注意力得分;
步骤S4,根据每个摘要序列的条件概率以及注意力得分,计算各个候选摘要的最终得分;
步骤S5,选择最终得分最高的候选摘要作为最终摘要。
进一步,其中所述步骤S3中,计算各个候选摘要的注意力得分是按照如下公式:
其中,attAw(Y)为注意力得分,αt,p为第t个单词对第p个句子的注意力权重,Y为生成的序列,|Y|为生成的序列的长度,为真实生成摘要的注意力分布,ψp(X)为预测出的最优的注意力分布,如果某个候选摘要对一些句子赋予过低的注意力比重,那么注意力得分就会下降,如果某些句子被分配的注意力比重过高,虽其本身的分数不变,但会降低其他句子的注意力比重,从而导致分数下降。
进一步,其中所述步骤S4中,计算各个候选摘要的最终得分是按照如下公式:
其中,Score为最终得分,p(Y|X)为每个摘要序列Y的条件概率,β为比例系数,用来均衡条件概念和注意力得分,最终得分是等于去除摘要长度影响的条件概率加上一定比例的注意力得分。
进一步,其中所述步骤S2中,所述注意力分布预测模型为句向量与注意力分布之间的依存关系,所述注意力分布预测模型的训练学习过程为:将句向量的集合输入一个Transformer编码器后得到包含上下文信息的句向量集合,每个句向量再经过一个单神经元的全连接层得到对应的注意力权重,这些注意力权重经过softmax归一化后就可以得到注意力分布,将之前训练摘要模型得到的注意力分布作为最优的注意力分布,训练所述注意力分布预测模型来最小化其输出的注意力分布与最优的流产力分布之间的均方差。
进一步,其中所述句向量的集合是将源文本以句子的形式分开然后将它们输入到一个摘要模型而得到,同时还得到各个预测单词对各个句子分配的注意力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西交利物浦大学,未经西交利物浦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010610681.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种检测座椅性能的测试设备
- 下一篇:数据爬取方法、装置、服务器及存储介质