[发明专利]具有多重注意机制的卷积循环神经网络的语音情感识别方法在审
申请号: | 202110695847.6 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113450830A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 姜芃旭;梁瑞宇;赵力;徐新洲;陶华伟 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/21;G10L25/24;G10L25/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 秦秋星 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 多重 注意 机制 卷积 循环 神经网络 语音 情感 识别 方法 | ||
本发明公布了一种具有多重注意机制的卷积循环神经网络的语音情感识别方法,包括:步骤1,提取谱图特征和帧级特征。步骤2,谱图特征输送进CNN模块来学习特征中的时频相关信息。步骤3,多头自注意力层作用于CNN模块来计算不同规模的全局特征下不同帧的权重,并融合CNN中不同深度的特征。步骤4,一个多维注意层作用于LSTM输入的帧级特征来综合考虑局部特征与全局特征的关系。步骤5,处理过的帧级特征输送进LSTM模型中来获取特征中的时间信息。步骤6,一个融合层来总结不同模块的输出来增强模型性能。步骤7,利用Softmax分类器对不同情感进行分类。本发明结合深度学习网络,模块内部采用并行的连接结构来同时处理特征,能够有效的提升语音情感识别的性能。
技术领域
本发明涉及语音情感识别技术领域,具体涉及一种具有多重注意机制的卷积循环神经网络的语音情感识别方法。
背景技术
语言学研究的重点是挖掘语言中的潜在信息,表征说话者或声音的状态。作为副语言学中的一项情感任务,语音情感识别可以从语音中学习情感的类别,这可以为智能人机交互提供帮助。最近的深度学习的相关研究为语音识别提供了更好地描述语音情感状态的深度模型。最主要的深度学习模型之一是神经网络,它通常用于从低阶声学特征中学习有区别的特征表示。此外,这些与情感相关的工作倾向于以卷积神经网络和基于长短时记忆的递归神经网络为中心,以挖掘语音中的局部信息。CNN经常用于从频谱特征中学习时频信息,而LSTM主要用于提取语音时间序列的序列相关性。
尽管上述的神经网络模型在语言情感识别中得到了成功的应用,但仍存在三个问题需要解决。首先,大多数现有的神经网络模型方法将完整的语音分割成分段,以满足模型输入定长的要求。在这个过程中,不完整的时间信息不可避免地导致情感细节的丢失。其次,大多数基于CNN的方法只将最后一个卷积层作为输出,而没有考虑含有高分辨率低级别信息的隐藏卷积层。第三,现有的基于LSTM的注意力层的语音情感研究通过设置连接在LSTM后端的注意层,在高级表征中对序列进行加权,排除了话语中帧级级特征的时间相关性。
发明内容
技术问题:为了克服现有语音情感识别技术存在的一些问题,本发明公布了一种具有多重注意机制的卷积循环神经网络(CRNN-MA)的语音情感识别方法。
技术方案:一种具有多重注意机制的卷积循环神经网络的语音情感识别方法,包括如下步骤:
步骤A,提取谱图特征和帧级特征分别作为模型不同模块的输入。然后,将这些特征分别输入卷积神经网络(CNN)和长短时记忆循环神经网络(LSTM),采用并行结构同时获取时频信息和序列信。步骤B,谱图特征输送进CNN来学习特征中的时频相关信息。步骤C,多头自注意力层(Multiple Self-Attention)作用于CNN模块来计算不同规模的全局特征下不同帧的权重,并融合CNN中不同深度的特征。步骤D,一个多维注意层(Multi-DimensionalAttention)作用于LSTM输入的帧级特征来综合考虑局部特征与全局特征的关系。步骤E,处理好的帧级特征输送进LSTM模型中来获取特征中的时间信息。步骤F,一个融合层来总结不同模块的输出来增强模型性能。步骤G,利用Softmax分类器对不同情感进行分类。
优选的,步骤A中提取谱图特征的具体步骤包括:将语音进行预加重,分帧,快速傅里叶变换后,将能量谱通过一组Mel尺度的三角形滤波器组,求出谱图特征;然后求出每段谱图特征的一阶差分和二阶差分;步骤A中提取帧级特征的具体步骤包括:每帧语音提取95维的低级描述子,其中包括梅尔频率倒谱系数以及其一阶导,梅儿倒谱及其一阶导,光谱特征、谱平坦度、色谱、过零率和均方根。
优选的,步骤B的具体步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110695847.6/2.html,转载请声明来源钻瓜专利网。