[发明专利]语音识别任务中的保持注意力机制单调性方法有效

申请号：	202110250627.2	申请日：	2021-03-08
公开（公告）号：	CN112992129B	公开（公告）日：	2022-09-30
发明（设计）人：	杨周旺;杜叶倩;王昊	申请（专利权）人：	中国科学技术大学
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16;G10L15/26;G06N3/08
代理公司：	北京凯特来知识产权代理有限公司 11260	代理人：	郑立明;郑哲
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别任务中的保持注意力机制调性方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音识别任务中的保持注意力机制单调性方法，包括：通过神经网络模块，学习能够拟合注意力机制权重分布的高斯分布的参数，并进行数值计算，使之符合设定要求；将数值计算得到的参数值与注意力机制权重矩阵之间的均方误差作为单调性损失，并将所述单调性损失作为原本优化目标的正则项，得到最终的优化目标；基于所述最终的优化目标对语音识别框架进行训练。上述方法使得模型在训练和测试过程中都能保持良好的语音和文本的对齐关系，从而避免解码过长或重复解码的问题，提升模型稳定性，减少预测错误，尤其是插入错误。此外，该方法简单易实施，参数量小，只少量增加计算量。

技术领域

本发明涉及深度学习与人工智能技术领域，尤其涉及一种语音识别任务中的保持注意力机制单调性方法。

背景技术

语音识别任务，是深度学习领域最重要，也是最常见的问题之一，目标是将语音识别为文本。用深度学习解决这类问题的一般方式为，构造一个端到端的神经网络模型，目前语音领域的主流方法为Encoder-Decoder框架结合注意力机制。虽然这类方法在多个数据集中均取得了良好的效果，然而基于注意力机制的自回归解码方式，由于更依赖上下文而非音频，因此容易产生解码过长或重复解码的问题，这一问题严重影响模型性能，是这类方法被诟病的重要原因之一。

这类错误在模型中体现为由Query、Key相乘得到的注意力机制的权重的交叉对齐或者重复对齐，因此保证注意力机制权重的单调对齐关系对于解决解码过长或重复解码至关重要。对于注意力机制单调对齐关系的研究，尤其是在以Transformer等可并行模型框架为基础模型的研究中，主要针对在线学习任务，这些方法是为了解决在线学习任务的训练过程与测试过程相匹配而设计的，但是按照这一思路做常规离线学习任务发现其性能不佳。

发明内容

本发明的目的是提供一种语音识别任务中的保持注意力机制单调性方法，通过正则化手段约束注意力机制权重的分布，使模型在训练和测试过程中都能保持良好的语音和文本的对齐关系，从而避免解码过长或重复解码的问题，提升模型稳定性。

本发明的目的是通过以下技术方案实现的：

一种语音识别任务中的保持注意力机制单调性方法，包括：

通过神经网络模块，学习能够拟合注意力机制权重分布的高斯分布的参数，并进行数值计算，使之符合设定要求；

将数值计算得到的参数值与注意力机制权重矩阵之间的均方误差作为单调性损失，并将所述单调性损失作为原本优化目标的正则项，得到最终的优化目标；

基于所述最终的优化目标对语音识别框架进行训练。

由上述本发明提供的技术方案可以看出，使得模型在训练和测试过程中都能保持良好的语音和文本的对齐关系，从而避免解码过长或重复解码的问题，提升模型稳定性，减少预测错误，尤其是插入错误。此外，该方法简单易实施，参数量小，只少量增加计算量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种语音识别任务中的保持注意力机制单调性方法的流程图；

图2为本发明实施例提供的产生单调性损失的核心模型结构示意图；