[发明专利]一种基于深度神经网络的语音分类方法有效
申请号: | 201711155884.8 | 申请日: | 2017-11-20 |
公开(公告)号: | CN108010514B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 毛华;章毅;吴雨 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 语音 分类 方法 | ||
1.一种基于深度神经网络的语音分类方法,其特征在于分布式的语谱图与卷积神经网络和注意力机制的结合,包括如下步骤:
S1:将语音数据进行短时傅里叶变换,转换为相应的语谱图;在完整的语谱图上沿着频域进行分块,获得一组局部的频域信息集合;
S2:建立基于卷积神经网络和注意力机制的算法模型,分别将完整的语谱图和局部的频域信息作为模型的输入,进行特征学习;基于局部和完整的语谱图信息,使用卷积神经网络提取局部和全局特征;
S3:运用注意力机制,融合全局和局部的特征表达,形成最终的特征表达,输入到softmax分类器,从而得到语音所属的分类的预测;
S4:采用已标记的语音数据,通过梯度下降以及反向传播算法训练网络,并保存网络参数;
S5:对未标记的语音,采用训练好的模型进行预测,模型输出最高概率的所属分类作为最终预测结果。
2.根据权利要求1所述的一种基于深度神经网络的语音分类方法,其特征在于:所述S1中分布式语谱图转换过程具体包括如下步骤:
S11:对原始音频进行短时傅里叶变换,将给定的原始音频分成M段短音频;对每段短音频,计算其短时能量并取模,最终得到一个完整的语谱图表达S,语谱图的S表达如下:
其中,N表示为每段短音频长度大小;
S12:对完整的语谱图信息沿着频域变化的方向进行分块,其中某个局部的频域信息sn的表达如下:
最后得到了一组局部与全局的频谱信息集合,即得到一组基于不同频域分布的输入数据组合:{s1,s2,…,sn,S}。
3.根据权利要求1所述的一种基于深度神经网络的语音分类方法,其特征在于:所述S2中卷积神经网络的特征提取具体包括如下步骤:
S21:对于多个局部输入,使用卷积神经网络提取不同信息的特征,从而得到一组局部表达:
上式中,每个局部输入sn都有与之对应的卷积参数wn和bn,f表示为激活函数;最终得到的一组局部特征表达为:{a1,a2,…,an};
S22:对于当前完整的全局频域信息,使用卷积神经网络提取出全局的特征,具体计算公式如下:
a=g(wS+b) (4)
其中,每个全局输入S都有与之对应的卷积参数权重w和偏置参数b,同时g表示为全局输入所采用的激活函数,最后a表示为卷积神经网络提取到的全局特征。
4.根据权利要求1所述的一种基于深度神经网络的语音分类方法,其特征在于:所述步骤S3中的注意力机制融合全局与局部的特征表达具体包括如下步骤:
基于不同的局部特征,运用注意力机制,重新得到新的全局特征表达;首先给全局信息赋予其每个组成部分一个“系数”:
上式中,pi代表着全局特征a的某一组成部分,总共m个组成信息,表示基于当前局部特征an,pi这一组成部分的系数,代表着其重要性程度;注意力机制通过两层映射学习,第一层采用权重W1,偏置参数b1和激活函数f来学习映射,第二层采用了采用权重W2,偏置参数b2和激活函数g在第一层的结果上学习映射;
然后将计算出的代表着重要程度的系数与对应的组成部分相乘,组成一个新的全局信息:
这样运用注意力机制,得到了n个新的全局信息,与最初的全局特征a对位相加,得到最终的特征表达:
将最终的特征表达A,输入到softmax分类器,所得的概率值最大的类别即为该语音数据的预测类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711155884.8/1.html,转载请声明来源钻瓜专利网。