[发明专利]基于轻量级深度学习的语音短指令识别方法及系统在审
申请号: | 202111435113.0 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114141239A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 谢捷;朱明英;李琦靖;胡凯 | 申请(专利权)人: | 江南大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/04 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 张荣 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 轻量级 深度 学习 语音 指令 识别 方法 系统 | ||
1.一种基于轻量级深度学习的语音短指令识别方法,其特征在于,包括如下步骤:
步骤S1:采集连续不同的短指令数据并进行预处理,得到采样率一致的短指令数据;
步骤S2:对采样率一致的多条连续短指令数据进行分段,得到多条短指令片段;
步骤S3:根据多条短指令片段得到每条短指令片段的语谱图,根据语谱图得到梅尔语谱图,根据梅尔语谱图得到梅尔倒频谱系数;
步骤S4:将梅尔语谱图与梅尔倒频谱系数分别作为卷积神经网络模型的输入并进行训练,得到利用梅尔语谱图作为输入训练得到的第一模型、与利用梅尔倒频谱系数作为输入训练得到的第二模型,并选取第一模型、第二模型中识别准确率较高的模型进行语音短指令识别。
2.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法,其特征在于,步骤S1中,所述采集连续不同的短指令数据并进行预处理,得到采样率一致的短指令数据的方法为:对连续不同的短指令数据转换为统一格式,并通过Audacity软件更改为统一的采样率数值。
3.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法,其特征在于,步骤S2中,所述对采样率一致的短指令数据进行分段,得到多条短指令片段的方法为:
步骤S21、通过人耳对采样率一致的短指令数据进行短指令片段选择;
步骤S22、记录每条短指令片段选区的起始和终止采样点数据;
步骤S23、根据起始和终止采样点依次截取每条短指令片段,得到多条短指令片段。
4.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法,其特征在于,步骤S3中,所述根据多条短指令片段得到每条短指令片段的语谱图的方法为:对多条短指令片段中的每条短指令片段进行分帧、加窗后再对每一帧进行短时傅里叶变换,得到功率谱,根据功率谱得到语谱图。
5.根据权利要求4所述的基于轻量级深度学习的语音短指令识别方法,其特征在于,所述加窗的窗口为汉明窗,所述汉明窗的大小为40ms、重叠部分为50%。
6.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法,其特征在于,步骤S3中,所述根据语谱图得到梅尔语谱图的方法为:将语谱图通过梅尔滤波器组进行过滤,得到梅尔语谱图。
7.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法,其特征在于,步骤S3中,所述根据梅尔语谱图得到梅尔倒频谱系数的方法为:计算梅尔语谱图的对数功率谱的平方,得到对数梅尔幅度谱,对对数梅尔幅度谱进行逆离散傅里叶变换,得到梅尔倒频谱系数。
8.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法,其特征在于,步骤S4中,所述卷积神经网络模型包括三个VGG块、一个全局平均池化层、一个全连接层、一个概率为0.5的丢弃层和一个softmax回归,每个VGG块由第一部分、第二部分和第三部分组成,所述第一部分、第二部分均包括:一个大小为3*3、填充为1、步长为2的卷积层、一个批量归一化层和一个激活函数为ReLU的激活层,所述第三部分包括一个2*2的最大池化层和一个概率为0.2的丢弃层。
9.根据权利要求1所述的基于轻量级深度学习的语音短指令识别方法,其特征在于,步骤S4中,所述选取两种模型识别准确率较高的作为语音短指令识别模型的方法为:通过分别计算两种模型的精确度或F1度量,选取精确度或F1度量较高的模型作为语音短指令识别模型的方法,所述精确度计算如下:
所述F1度量计算如下:
式中,n为测试集数目,TP和FP分别表示测试集中该类所有正例被正确和错误分类的数目,而TN和FN分别表示测试集中该类所有负例被正确和错误分类的数目。
10.一种基于轻量级深度学习的语音短指令识别系统,其特征在于,包括:
短指令数据采集模块,用于采集连续不同的短指令数据并进行预处理,得到采样率一致的短指令数据;
短指令数据分段模块,用于对采样率一致的短指令数据进行分段,得到多条短指令片段;
梅尔语谱图及梅尔倒频谱系数获取模块,用于根据多条短指令片段得到每条短指令片段的语谱图,根据语谱图得到梅尔语谱图,根据梅尔语谱图得到梅尔倒频谱系数;
识别模型获取模块,用于将梅尔语谱图与梅尔倒频谱系数分别作为卷积神经网络模型的输入并进行训练,得到利用梅尔语谱图作为输入训练得到的第一模型、与利用梅尔倒频谱系数作为输入训练得到的第二模型,并选取第一模型、第二模型中识别准确率较高的模型进行语音短指令识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111435113.0/1.html,转载请声明来源钻瓜专利网。