[发明专利]基于注意力机制的语音情感识别方法有效
申请号: | 201811135064.7 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109285562B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 谢跃;梁瑞宇;梁镇麟;郭如雪 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/27;G10L15/06;G06N3/04 |
代理公司: | 南京创略知识产权代理事务所(普通合伙) 32358 | 代理人: | 严靖 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 语音 情感 识别 方法 | ||
1.基于注意力机制的语音情感识别方法,其特征在于:包括以下步骤,
步骤(A),从原始语音数据中提取具有时序信息的语音特征;
步骤(B),建立具有处理变长数据能力的LSTM模型;
步骤(C),通过注意力机制优化LSTM模型中的遗忘门计算方式;
步骤(D),对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作;
步骤(E),在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型;
步骤(F),训练情感识别网络模型,并对该情感识别网络模型的识别性能进行评测,
其中,步骤(A),提取具有时序信息的语音特征是通过语音帧之间的序列关系保留了原始语音数据中的时序信息,且该具有时序信息的语音特征的维度是随原始语音数据的实际长度而变化的;
步骤(B),建立具有处理变长数据能力的LSTM模型,遵循以下规则,
(B1),根据LSTM模型具有处理变长语音特征的能力,在不等长的语音数据结尾处补零至相同长度;
(B2),在LSTM模型训练前,补零后的语音数据实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得;
(B3),在LSTM模型参数更新训练时,只有实际有效的语音数据参与运算,补零的数据并不参与运算;
步骤(C),通过注意力机制优化LSTM模型中的遗忘门计算方式,是在遗忘门与细胞状态的更新计算过程中增加窥视连接,将细胞状态也作为输入,该遗忘门计算方式,如公式(1)所示,
ft=σ(Wf×[Ct-1,ht-1,xt]+bf) (1)
该细胞状态更新,如公式(2)、(3)、(4)所示,
it=σ(Wi×[Ct-1,ht-1,xt]+bi) (2)
其中,ft为遗忘门参数,Ct为细胞状态更新参数,Ct-1和ht-1分别为上一时刻的细胞状态和隐层输出,xt为当前时刻的输入,为细胞状态更新的候选值,it为控制候选值的系数,Wf为LSTM模型内待训练的遗忘门外权重参数,bf为LSTM模型内待训练的遗忘门偏置参数,Wi为LSTM模型内待训练的控制候选值权重参数,bi为LSTM模型内待训练的控制候选值偏置参数,WC为LSTM模型内待训练的细胞状态更新权重参数,bC为LSTM模型内待训练的细胞状态更新偏置参数,σ为sigmod激活函数;
在该LSTM模型中it由(1-ft)获得,即旧细胞遗忘的信息与新细胞加入的信息一同由ft决定,细胞状态更新公式,如公式(5)所示:
从上式中可以看出,遗忘门参数ft是通过对新旧细胞状态加权求和来更新当前时刻细胞状态的,针对加权系数采用自注意力机制来获取,即通过训练自注意力模型中的参数来获取细胞自身状态中的信息,以更新新的细胞状态,因此,遗忘门参数ft,可通公式(6)得到,
ft=σ(Vf×tanh(Wf×Ct-1)) (6)
其中,Vf为遗忘门内注意力机制待训练参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811135064.7/1.html,转载请声明来源钻瓜专利网。