[发明专利]一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置有效
申请号: | 201911195308.5 | 申请日: | 2019-11-28 |
公开(公告)号: | CN111210815B | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 赵铭;胡伟;蔡一茂 | 申请(专利权)人: | 赵铭;胡伟;蔡一茂 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/16;G10L15/02;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 语音 命令 识别 深度 神经网络 构建 方法 装置 | ||
本发明涉及一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置。该方法包括:由语音命令集和干扰语音集构成训练数据,对训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量;将所有多通道的一维特征向量输入CNN网络进行训练,网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,最终得到训练完成的用于语音命令词识别的CNN网络。本发明将语音特征看作多通道一维特征向量,采用一维卷积操作代替二维卷积操作,能够有效的降低卷积操作的计算量,达到与二维卷积同样级别的识别精度,使智能设备实现本地离线的、能够快速响应的语音命令识别功能,降低了识别的功耗,给用户以良好的使用体验。
技术领域
本发明属于语音识别(speech recognition)、人工智能(artificialintelligence)、深度神经网络(deep neural network)、卷积神经网络(CNN,convolutionneural network)算法领域,具体涉及一种用于语音命令词识别的深度卷积神经网络构建方法和基于该神经网络进行语音命令识别的方及装置。
背景技术
语音命令词识别是智能设备人机语音交互功能的重要组成部分。它需要实时响应、高精度和良好的用户体验。传统的语音识别技术使用隐含马尔可夫模型(HMMS)和维特比译码,虽然达到了合理的精度,但模型训练的复杂度高,推理(识别)过程的计算量大,识别延时也较大。近年来,采用深度神经网络进行语音的复杂语句识别和命令词识别已成为一种有吸引力的选择,其比传统的语音识别算法有更高的准确性和更少的识别延时。
智能设备实现语音命令识别可以有两种方式,一种是将语音命令送到云端进行识别,一种是本地识别。云端识别可以使用复杂的神经网络,精度高,但是由于网络延时的存在,识别延时大,用户体验不好。所以很多情况下,智能设备更需要本地离线的语音命令识别功能,以实现快速的响应。对于智能设备,出于功耗方面的考虑,用于离线语音命令识别的神经网络不能过于复杂,以降低计算功耗。但同时要能提供足够高的识别精度,给用户以良好的使用体验。
在一个典型的语音命令词识别系统中,一段输入语音首先被分成多个语音帧,相邻的两个语音帧一般会有部分交叠。对于每帧语音,会进行语音特征参数的提取。常用的语音特征有对数梅尔子带能量(LFBE,Log-mel filter bank energies),和梅尔频率倒谱系数(MFCC,Mel-frequency cepstral coefficients)。提取过程首先将一帧语音通过傅里叶变换转换成频率域的一组频谱系数,然后用频谱系数计算语音特征。
如果一段语音被分成N个语音帧,每个语音帧提取出K个特征参数,那么一个语音命令识别神经网络的输入数据个数为N*K个。用于语音识别的神经网络可以用深度神经网络(DNN,deep neural network)结构,也可用卷积神经网络(CNN,convolution neuralnetwork)结构。
DNN网络由多个全连接层级联组成,N*K个特征作为一组一维数据输入给DNN网络,最后一级全连接层的计算结果输入到输出层得到识别结果。DNN网络的缺点在于采用全连接层,很难提高识别精度。如果要取得较高的识别精度,计算量将非常大。DNN网络将N*K个特征看做一组一维数据,并没有考虑到N个语音帧特征参数之间具有相关性,实际是可以通过卷积操作提取这种相关性,来提高识别精度,或者降低计算量。
CNN网络将N*K个特征看做一幅长为N、宽为K的图像,如下面公式所示,其中U表示特征矩阵,u表示矩阵中的元素即某个特征参数。
CNN网络由多个卷积层和全连接层级联组成,最后一级全连接层的计算结果输入到输出层得到识别结果。CNN网络将多帧特征看做图像,因此采用了对图像常用的二维卷积操作,而二维卷积的计算量比较大。
上述用于语音识别的神经网络的结构比较复杂,计算量大,用于智能设备本地离线的语音命令识别功能时,计算功耗高,不适合移动智能设备或对功耗有要求的智能设备的使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赵铭;胡伟;蔡一茂,未经赵铭;胡伟;蔡一茂许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911195308.5/2.html,转载请声明来源钻瓜专利网。