[发明专利]基于深度神经网络的语音情感识别方法有效
申请号: | 201611093447.3 | 申请日: | 2016-12-01 |
公开(公告)号: | CN106782602B | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 袁亮;卢官明;闫静杰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/27;G10L25/63;G10L15/16;G06N3/04;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 神经网络 语音 情感 识别 方法 | ||
本发明公开了一种基于长短时间记忆网络和卷积神经网络的语音情感识别方法,该方法构建基于LSTM和CNN的语音情感识别系统,将语音序列作为系统的输入,采用反向传播算法对LSTM和CNN进行训练,优化网络的参数,得到优化后的网络模型;利用已经训练好的网络模型对新输入的语音序列进行情感分类,分为悲伤、高兴、厌恶、恐惧、惊吓、中性六种情感。该方法综合考虑了LSTM和CNN两种网络模型,避免了人工选择和提取特征的繁琐,提高了情感识别的准确率。
技术领域
本发明涉及图像处理与模式识别领域,特别是基于长短时间记忆网络和卷积神经网络的语音情感识别方法。
背景技术
在人际交往中,存在包括语音、肢体语言、面部表情等在内的多种信息交换的方式。其中,语音信号是最快速的、最原始的交流方式,被研究学者认为是实现人机交互的最有效的方法之一。近半个世纪以来,学者们研究了大量的关于语音识别的课题,即如何将语音序列转换为文本。尽管在语音识别方面取得重大进展,但是由于机器无法了解说话者的情感状态,导致在实现人类和机器自然的交互方面还有很长的路要走。这也带动了另一个方面的研究,就是如何从语音中识别出说话者的情感状态,即语音情感识别。
语音情感识别作为人机交互的一个重要分支,可以广泛应用与教育、医疗、交通等各个领域。在车载系统中,可以用作对驾驶者的精神状态进行监控,判断其是否处于安全状态,从而能在驾驶员疲劳的时候予以提醒,避免交通事故的发生;在电话服务中,可以用作对言辞表达激烈的用户进行分拣,将其转接给人工客服,优化用户体验,提高整个服务水平;在临床医学中,借助语音情感识别对抑郁症患者或者自闭症儿童的情感变化进行跟踪,作为疾病诊断和辅助治疗的工具;在机器人研究中,帮助机器人利用语音信息理解人的感情,做出友好且智能的回应,实现交互。
现阶段大部分语音情感识别的方法均采用传统提取特征,再用分类器进行分类的方法。常用的语音特征包括基音、语速、强度(韵律特征)、线性预测倒谱系数、梅尔频率倒谱系数(频谱特征)等。常用的分类方法包括隐马尔可夫模型,支持向量机,高斯混合模型。传统的情感识别方法已经趋于成熟,但是仍存在一定的不足。比如,目前尚不明确哪种特征对情感识别的影响最大,大多数实验中只选用一种特征作为判断的依据,降低了情感识别的客观性。另外,现有的一些特征中,比如基音、语速等韵律特征受说话者的风格影响较大,增加了识别的复杂度。
随着近阶段深度学习的发展,不少研究者选择采用训练网络模型来完成情感识别。现有的语音情感识别方法中,主要有基于深度信念网络的语音情感识别方法,基于长短时间记忆网络的语音情感识别方法和基于卷积神经网络的语音情感识别方法。上述三种方法中,存在的主要缺点是:无法兼顾各个网络模型的优点。比如,深度信念网络可以将一维序列用作输入,但是无法利用序列前后间的相关性;长短时间记忆网络虽然能够利用序列前后间的相关性,但是提取的特征维数较高;卷积神经网络无法直接对语音序列进行处理,需先对语音信号进行傅里叶变换,将其转换为频谱后作为输入。传统的语音情感识别方法在特征提取和分类发展前景小,以及现有的基于深度学习的语音情感方法网络较为单一。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,而提供基于长短时间记忆网络和卷积神经网络的语音情感识别方法,避免了人工提取和筛选特征的复杂过程,通过训练网络自适应的调整参数,获得最佳的情感识别效果。
本发明为解决上述技术问题采用以下技术方案:
根据本发明所述的一种基于长短时间记忆网络和卷积神经网络的语音情感识别方法,包括以下步骤:
步骤A、对语音情感数据库中的语音样本进行预处理操作,使得每个语音样本均能用一个等长的序列表示,从而得到预处理后的语音序列;
步骤B、构建基于长短时间记忆网络LSTM和卷积神经网络CNN的语音情感识别系统,其包含两个基本模块:长短时间记忆网络模块和卷积神经网络模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611093447.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多媒体数据处理方法及其装置
- 下一篇:智能语音评测方法及系统