[发明专利]基于注意力机制的语音情感识别方法有效
申请号: | 201811135064.7 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109285562B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 谢跃;梁瑞宇;梁镇麟;郭如雪 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/27;G10L15/06;G06N3/04 |
代理公司: | 南京创略知识产权代理事务所(普通合伙) 32358 | 代理人: | 严靖 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 语音 情感 识别 方法 | ||
本发明公开了一种基于注意力机制的语音情感识别方法,包括以下步骤,从原始语音数据中提取具有时序信息的语音特征;建立具有处理变长数据能力的LSTM模型;通过注意力机制优化LSTM模型中的遗忘门计算方式;对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作;在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型;训练情感识别网络模型,并对该情感识别网络模型的识别性能进行评测。本发明的基于注意力机制的语音情感识别方法,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。
技术领域
本发明涉及语音情感识别技术领域,具体涉及一种基于注意力机制的语音情感识别方法。
背景技术
语音情感识别在人机交互中具有重要的应用价值。为了实现语音情感的自动识别,很多学者在机器学习算法方面做了大量的研究工作,如支持向量机,贝叶斯分类器和K近邻等算法。近年来,随着深度学习的发展,其在自动语音情感识别上应用也越来越多。Deng(学者)使用自编码器与少量情感标签数据进行了半监督学习,Neumann(学者)将卷积神经网络应用在了语音情感识别中。
虽然上述算法在情感识别中取得了成功应用,但不管是传统机器学习算法还是深度学习中的自编码器和卷积神经网络,都只能接受具有固定维度的数据作为输入。这与实际有效语音不断变化的长度之间存在明显的矛盾。为了解决这一问题,主流的方法是先通过从短时语音帧中提取情感相关特征(在本发明中称为帧级特征),再将静态统计函数(如均值、方差、最大值、线性回归系数等)作用与帧级特征上,最终将结果串联成一个维度确定的向量来表示一句完整的语音。虽然,这种固定维度的特征满足了模型输入的要求,但是通过统计分析处理后的语音特征会丧失原始语音中的时序信息。目前,解决该矛盾的另一个思路是设计一种可以接受变长特征的模型,如Schmidhuber提出的LSTM(Long Short-TermMemory长短期记忆网络)结构采用对不同长度的数据先进行补齐操作以对齐数据,但在实际运算过程中,只计算实际有效长度的数据,并不处理补齐部分的数据。该方法为处理像语音这样变长时间序列提供了可行性。
近些年来,为强化LSTM在特定任务中处理数据的能力,有学者针对LSTM的内部构造提出了很多优化法案。Gers提出了窥视连接,将细胞状态也作为了输入信息,增强了对历史信息的学习能力;Yao通过引入深度门的概念来连接层间的记忆细胞,以控制记忆细胞之间的数据流。然而,这些改进后的LSTM变体都是以牺牲计算复杂度为代价来换取记忆信息的增强。此外,在众多LSTM的应用中,往往都是选取LSTM的最后一个时刻的输出作为下一个模型的输入(因为其他模型只能接受具有固定维度的输入)。但是,对于语音情感识别任务而言,语音在结束时多为静音段,几乎不含有情感信息,所以,此时LSTM最后一个时刻对应的输出所含情感信息会被削弱。
通过上述的描述,如何有效利用LSTM在所有时刻的输出(而不是单一的最后一个时刻)信息,是提高语音情感识别性能的关键,是当前需要解决的问题。
发明内容
为了克服现有技术中的LSTM在语音情感识别中存在的问题。本发明的基于注意力机制的语音情感识别方法,通过注意力机制优化LSTM的遗忘门,不仅降低了LSTM模型运算复杂度,而且在一定程度上优化了情感识别性能,还通过注意力机制为LSTM模型的输出进行时间和特征维度的加权,以区分不同时间片段和不同特征对情感识别的影响,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
一种基于注意力机制的语音情感识别方法,包括以下步骤,
步骤(A),从原始语音数据中提取具有时序信息的语音特征;
步骤(B),建立具有处理变长数据能力的LSTM模型;
步骤(C),通过注意力机制优化LSTM模型中的遗忘门计算方式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811135064.7/2.html,转载请声明来源钻瓜专利网。