[发明专利]一种基于命令词语音识别的易混淆词防误识别方法有效

申请号：	202211118939.9	申请日：	2022-09-15
公开（公告）号：	CN115206299B	公开（公告）日：	2022-11-11
发明（设计）人：	陈佩云;曹艳艳	申请（专利权）人：	成都启英泰伦科技有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/08;G10L15/26;G10L19/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	610041 四川省成都市高***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于命令词语识别混淆词防误方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于命令词语音识别的易混淆词防误识别方法，属于语音技术领域，包括如下步骤：S1.采集音频数据，对音频数据分类并设置原始分类标签；并提取音频数据的原始梅尔特征作为二次鉴别器训练数据；S2.搭建二次鉴别器模型，模型包括编码器、解码器和多维鉴别器；所述多维鉴别器包括多个并行的一维卷积层及与其连接的最大池化层，多个最大池化层的输出端连接拼接层；以步骤S1得到的训练数据输入编码器网络进行训练，训练模型直至模型收敛，完成训练。本发明通过搭建小尺寸易混淆词鉴别模型，当识别到易混淆词时，对易混淆词的语音进行通过二次鉴别器进行二次鉴别减小原识别系统对易混淆命令词的误识别率。

技术领域

本发明属于语音技术领域，具体涉及一种基于命令词语音识别的易混淆词防误识别方法。

背景技术

随着语音识别技术的发展，语音识别走进人们的生活。基于命令词语音识别系统逐渐轻量化，被部署在嵌入式端，应用在广泛领域。由于各种控制指令不断增加，部分命令词在发音上十分相似，例如常用家电当中的空调指令“二十一度”与“二十七度”，“制冷模式”与“制热模式”这种发音较为相近的命令词误识别率非常大，严重影响用户体验，如何高效减少易混淆命令词的误识别是亟待解决的问题。

发明内容

为克服现有技术存在的缺陷，本发明公开了一种基于命令词语音识别的易混淆词防误识别方法。

本发明所述基于命令词语音识别的易混淆词防误识别方法，包括如下步骤：

S1.采集音频数据，对音频数据分类并设置原始分类标签；并提取音频数据的原始梅尔特征作为二次鉴别器训练数据；

S2.搭建二次鉴别器模型，模型包括编码器、解码器和多维鉴别器；并初始化设置编码器，解码器以及多维鉴别器的模型参数；

所述多维鉴别器包括多个并行的一维卷积层及与其连接的最大池化层，多个最大池化层的输出端连接拼接层，所述拼接层连接线性层，线性层连接归一化指数函数层；

所述一维卷积层的卷积核尺寸为A*B，多维鉴别器各个一维卷积层卷积核的第一尺寸A相等，第二尺寸B不等；

以步骤S1得到的训练数据输入编码器网络进行训练，用L作为二次鉴别器模型的损失，训练模型直至模型收敛，完成训练；

其中L为总损失函数，L= L_mel+L_f；

L_mel，L_f分别为梅尔损失和分类目标损失；

----①

其中m为梅尔特征的总维度，n为梅尔特征的总帧数，a为解码器输出的梅尔特征，b为真实的梅尔特征，即步骤S1中的原始梅尔特征，①式中下标i,j分别表示梅尔特征维度和帧数；