[发明专利]一种基于深度神经网络的语音分类方法有效
申请号: | 201711155884.8 | 申请日: | 2017-11-20 |
公开(公告)号: | CN108010514B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 毛华;章毅;吴雨 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 语音 分类 方法 | ||
本发明公开了一种基于深度神经网络的语音分类方法,旨在通过一个统一的算法模型,解决不同的语音分类问题。本发明包括如下步骤:S1:将语音转换为相应的语谱图;在完整的语谱图上沿着频域进行分块,获得一组局部的频域信息集合。S2:分别将完整和局部的频域信息作为模型的输入,基于不同的输入,卷积神经网络能够提取到局部和全局特征。S3:运用注意力机制,融合全局和局部的特征表达,形成最终的特征表达。S4:采用已标记的数据,通过梯度下降以及反向传播算法训练网络。S5:对未标记的语音,采用训练好的参数,模型输出最高概率的分类作为预测结果。本发明实现了对不同语音分类问题的统一算法模型,在多个语音分类问题上提高了准确度。
技术领域
一种基于深度神经网络的语音分类方法,用于处理不同的语音的分类任务,涉及语音信号处理,人工智能等技术领域。
背景技术
随着计算机技术的快速发展,人类对计算机的依赖性和要求不断增强,如何更好地与计算机进行交互已经成为了一个研究热点。语音作为日常生活中最普遍、最自然的一种沟通方式,它包含着巨大的信息量,例如说话人的口音,说话人的情感状态等等。计算机的语音分类识别能力是计算机进行语音处理的重要组成部分,是实现自然人机交互界面的关键前提,具有很大的研究价值和应用价值。语音分类技术是一个十分重要的研究方向,它在语音识别,语音内容检测等方面都起着重要作用。语音分类是对音频进行深度处理的基础和前提,对于当前给出的一段音频,可以通过分类可以事先确定语音所处的音频环境,说话人的性别,口音,情绪等,为调整语音模型的自适应算法提供基础。因此,语音分类方法是至关重要的。
语音分类包括多种不同的任务,例如:语音情感识别,口音识别,说话人识别,语音环境区分等。语音分类任务的挑战在于语音的高维特性。传统的语音分类方法,通常会针对单一的问题或者数据库,提取特定的音频特征,从而降低输入分类网络的数据的维度。然而,特征提取需要足够的语音信号处理知识,因为特征提取代表着信息的过滤,会造成信息的缺失。其次,传统的分类算法往往不适合多分类任务,例如支持向量机等。这些问题都是我们的工作需要攻克的难点。
深度神经网络方法是目前处理大数据,尤其是高维数据最主要的手段之一。深度神经网络的特点在于能够通过构造多层的非线性映射函数,通过对连接权的训练实现对音频数据的特征的学习并用于分类。深度神经网络因为其具有反馈、学习等功能,能根据输出结果对网络自身参数进行调整,目前,深度神经网络的热潮虽然已经逐渐在各个学科领域蔓延开,成功地应用于多个领域,包括机器翻译,语音识别,目标识别等。
发明内容
本发明针对上述不足之处提供了一种基于深度神经网络的语音分类方法,解决现有技术中仅针对特有的单任务分类或者数据的特征提取方法、高维数据难处理的问题。
为了实现上述目的,本发明采用的技术方案为:
一种基于深度神经网络的语音分类方法,其特征在于,包括如下步骤:
S1:将语音数据进行短时傅里叶变换,转换为相应的语谱图;在完整的语谱图上沿着频域进行分块,获得一组局部的频域信息集合;
S2:建立基于卷积神经网络和注意力机制的算法模型,分别将完整的语谱图和局部的频域信息作为模型的输入,进行特征学习;基于局部和完整的语谱图信息,使用卷积神经网络提取局部和全局特征;
S3:运用注意力机制,融合全局和局部的特征表达,形成最终的特征表达,输入到softmax分类器,从而得到语音所属的分类的预测;
S4:采用已标记的语音数据,通过梯度下降以及反向传播算法训练网络,并保存网络参数;
S5:对未标记的语音,采用训练好的模型进行预测,模型输出最高概率的所属分类作为最终预测结果。
进一步地,所述S1中分布式语谱图转换过程具体包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711155884.8/2.html,转载请声明来源钻瓜专利网。