[发明专利]一种噪声环境下的基于深度神经网络的语音唤醒方法在审
申请号: | 202111381090.X | 申请日: | 2021-11-20 |
公开(公告)号: | CN114067789A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 赵亚丽;明杨;缪炜 | 申请(专利权)人: | 上海互问信息科技有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/16;G10L21/0208;G10L25/24;G10L25/30 |
代理公司: | 北京盛凡佳华专利代理事务所(普通合伙) 11947 | 代理人: | 王艳 |
地址: | 200000 上海市浦东新区中国(上海)自由贸易*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 噪声 环境 基于 深度 神经网络 语音 唤醒 方法 | ||
1.一种噪声环境下的基于深度神经网络的语音唤醒方法,包括包含训练抗噪唤醒模型和唤醒识别,其特征在于:所述训练唤醒模型部分使用干净语音和对应的带噪语音作为训练样本,对所构建的语音唤醒模型进行迭代训练,获得带有抗噪功能的唤醒模型;
所述唤醒识别将待识别数据进行与训练时相同的特征提取后,输入到语音唤醒模型,然后分析模型输出分数以得到最终的唤醒结果。
2.根据权利要求1所述的一种噪声环境下的基于深度神经网络的语音唤醒方法,其特征在于:所述训练唤醒模型部分包括准备训练数据、特征提取和模型训练,所述唤醒识别包括特征提取、输入模型和解码。
3.根据权利要求2所述的一种噪声环境下的基于深度神经网络的语音唤醒方法,其特征在于:所述准备训练数据将用于训练的干净唤醒词数据和不同类型的噪声,以不同信噪比进行加噪,得到带噪的语音数据。
4.根据权利要求2所述的一种噪声环境下的基于深度神经网络的语音唤醒方法,其特征在于:所述特征提取将干净语音和带噪语音进行加窗,分帧,傅里叶变换,并基于梅尔域进行特征提取,得到在不同频域上的能量谱密度。
5.根据权利要求2所述的一种噪声环境下的基于深度神经网络的语音唤醒方法,其特征在于:所述模型训练将上述获得的带噪语音特征作为本发明所提出的语音唤醒模型的输入,并将图一所示的语音唤醒模型第一部分的输出1与对应干净语音的能量谱密度按照均方误差损失函数(MSE)计算均方误差损失,将图一所示的语音唤醒模型第二部分的输出2与输入语音的唤醒词标签计算交叉熵损失,将上述得到的均方误差损失和交叉熵损失按照一定比例相加,得到网络模型的总体损失函数,最后,利用总体损失函数迭代更新唤醒模型。
6.根据权利要求2所述的一种噪声环境下的基于深度神经网络的语音唤醒方法,其特征在于:所述特征提取将待测试的语音进行语音信号加窗、分帧、傅里叶变换、并基于梅尔域进行特征提取,得到在不同频域上的能量谱密度。
7.根据权利要求2所述的一种噪声环境下的基于深度神经网络的语音唤醒方法,其特征在于:所述输入模型将每一帧特征输入语音唤醒模型,输出每一帧上语音唤醒模型在唤醒词上的分类分数。
8.根据权利要求2所述的一种噪声环境下的基于深度神经网络的语音唤醒方法,其特征在于:所述解码使用基于固定窗口的Viterbi搜索算法进行解码,通过预定义的阈值来判别当前输入语音是否唤醒。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海互问信息科技有限公司,未经上海互问信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111381090.X/1.html,转载请声明来源钻瓜专利网。