[发明专利]一种基于动态卷积神经网络及脉冲神经网络的语音情感识别模型在审
申请号: | 202110773422.2 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113643725A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 耿磊;汪洋;傅洪亮;陶华伟 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/08;G10L15/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 卷积 神经网络 脉冲 语音 情感 识别 模型 | ||
本发明公布了一种基于动态卷积网络及脉冲神经网络的语音情感识别模型。本发明包括以下步骤:首先对语音信号预处理,提取Mel谱特征及统计特征;其次,将谱图输入到动态卷积网中,提取全局情感特征,将统计特征输入到脉冲神经网中,提取动态情感特征;然后将网络输出的两种深层特征进行拼接、融合;最后将融合后的特征送入分类器中分类。网络利用梯度反向传播算法优化模型性能。所提模型同处理两种语音特征来提取深层情感特征,两种特征有效的弥补了单一特征造成的特征缺失,能更有效的挖掘语音中的情感信息。
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种基于动态卷积网络及脉冲神经网络的语音情感识别模型。
背景技术
语言是人类最基本、最常见、最有效的交际方式之一,人们可以从语言中感知情感的微妙变化。语音情感识别是指通过计算机对输入语音的情感状态进行自动识别,作为智能人机语音交互的关键技术,语音情感识别技术受到了众多研究者的关注。在过去几十年中,语音情感识别的相关研究取得了巨大的进展,并在许多不同的领域都有着广阔的前景。语音情感识别开始更多地应用到教育、娱乐、通讯等行业当中。加强对语音情感、情绪的识别成为了下一代人机交互、人工智能发展的重点。因此,开展针对语音情感识别的研究具有重要的理论价值和现实意义。
情感特征提取是语音情感识别的关键步骤。特征表征能力好坏直接决定了情感识别的有效性,如何从原始语音信号中提取出有判别力的情感特征是语音情感识别的热门研究课题之一。传统的语音情感特征包括韵律特征、谱图特征和语音质量特征。随着研究者的不断研究,越来越多的相关特征被提出。虽然这些人工设计的特征促进了语音情感识别的发展,但由于内容和不同说话人的变化等复杂因素,如何提高识别效果仍然是一个挑战。
近年来深度学习的兴起,神经网络在特征提取方面展现出了卓越的性能。与手工设计的特征相比,神经网络通过多轮迭代、自动提炼的方式所提取的深层特征具有更多的内在信息于更强的表征能力。相关研究人员已经开始使用神经网络和深度学习方法来解决语音情感识别问题,通过设计和开发特定的神经网络模型,提高了语音情感识别的研究水平,并且一些网络模型已经成功地应用于语音情感识别中。相关神经网络的成功应用,促使研究人员利用相关网络对语音信号进行深层研究,但仍存在一些重要的问题有待解决。
首先,因语言的固有特性,每条语音的持续时间不同,但现有大多数深度学习模型需要固定尺寸的输入,故需要在不损失情感信息的前提下设计一种满足模型要求的固定尺寸的输入特征。其次,用于语音情感识别的相关模型大多是采用串联式的方式来连接不同的神经网络模型,模型间的单线呈递关系可能会造成情感信息的丢失。
针对这些问题,本文提出了一种用于语音情感识别的Dy-CNN+SNN模型。使用谱图特征和统计特征两种不同功能的特征作为模型的输入,不同于传统模型之间的呈递关系,Dy-CNN+SNN模型采用并行的连接方式,以获得更好更丰富的情感细节。Dy-CNN模块可以捕获谱特征中的时频相关特性。同时,作为第三代人工神经网络,SNN所展现出来前所未有的能源效率而受到广泛关注,本发明采用统计特征作为SNN输入可以更好的弥补因压缩谱图大小而在Dy-CNN模块中丢失的情感细节。使用加权融合的方式分别对两个模块的输出连接一个可训练的权重层后融合,最后,使用softmax分类器对不同情感进行分类。
发明内容
在语音情感识别中,特征提取是及其重要和关键的一步,提取特征的有效性直接关系到了后端识别的效果。本发明公布了一种基于动态卷积神经网络及脉冲神经网络的语音情感识别模型,其特征在于,包括以下步骤:
(1)语音信号预处理:将情感语料库中的语音数据按对应的情感类别标记标签,之后对每条语音进行分帧及加窗操作;
(2)语音特征提取:对步骤(1)预处理后的语音数据,提取出梅尔倒谱系数(MFCC)、过零率、基频等统计特征和log-Mel谱图特征;
(3)网络模型建构:该网络由一个动态卷积网络、一个脉冲神经网络以及融合层和分类层组成,该过程的具体实现步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110773422.2/2.html,转载请声明来源钻瓜专利网。