[发明专利]一种基于深度神经网络的语音分类方法有效
申请号: | 201711155884.8 | 申请日: | 2017-11-20 |
公开(公告)号: | CN108010514B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 毛华;章毅;吴雨 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度神经网络的语音分类方法,旨在通过一个统一的算法模型,解决不同的语音分类问题。本发明包括如下步骤:S1:将语音转换为相应的语谱图;在完整的语谱图上沿着频域进行分块,获得一组局部的频域信息集合。S2:分别将完整和局部的频域信息作为模型的输入,基于不同的输入,卷积神经网络能够提取到局部和全局特征。S3:运用注意力机制,融合全局和局部的特征表达,形成最终的特征表达。S4:采用已标记的数据,通过梯度下降以及反向传播算法训练网络。S5:对未标记的语音,采用训练好的参数,模型输出最高概率的分类作为预测结果。本发明实现了对不同语音分类问题的统一算法模型,在多个语音分类问题上提高了准确度。 | ||
搜索关键词: | 一种 基于 深度 神经网络 语音 分类 方法 | ||
【主权项】:
1.一种基于深度神经网络的语音分类方法,其特征在于分布式的语谱图与卷积神经网络和注意力机制的结合,包括如下步骤:S1:将语音数据进行短时傅里叶变换,转换为相应的语谱图;在完整的语谱图上沿着频域进行分块,获得一组局部的频域信息集合;S2:建立基于卷积神经网络和注意力机制的算法模型,分别将完整的语谱图和局部的频域信息作为模型的输入,进行特征学习;基于局部和完整的语谱图信息,使用卷积神经网络提取局部和全局特征;S3:运用注意力机制,融合全局和局部的特征表达,形成最终的特征表达,输入到softmax分类器,从而得到语音所属的分类的预测;S4:采用已标记的语音数据,通过梯度下降以及反向传播算法训练网络,并保存网络参数;S5:对未标记的语音,采用训练好的模型进行预测,模型输出最高概率的所属分类作为最终预测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711155884.8/,转载请声明来源钻瓜专利网。