[发明专利]基于注意力的语音情绪状态评估方法、装置、介质及设备有效
申请号: | 202010143924.2 | 申请日: | 2020-03-04 |
公开(公告)号: | CN111402928B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 李淑贞;邢晓芬;徐向民;郭锴凌 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/03 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 霍健兰;梁莹 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 语音 情绪 状态 评估 方法 装置 介质 设备 | ||
1.一种基于注意力的语音情绪状态评估方法,其特征在于:包括如下步骤:
S1步、搭建语音情绪状态评估模型:设定输入为语谱图;采用四层卷积层搭建基础骨架,分别设定每层卷积层的卷积核尺寸;每层卷积层紧接着批归一化层、RELU激活函数和平均池化操作;在第三层卷积层后接上时空注意力模块;在第四层卷积层后接上频率注意力模块;最后接上softmax层来得到情绪状态预测结果;
S2步、输入语音情绪数据库,语音情绪数据库中各个音频数据分别带有对应的情绪标签;将语音情绪数据库的音频数据划分为训练集和测试集;对所有音频数据分别进行处理获取语谱图;将语谱图输入到语音情绪状态评估模型进行训练和测试;
S3步、将待评估的音频数据进行处理获取语谱图,并输入到完成训练和测试的语音情绪状态评估模型以评估出情绪状态。
2.根据权利要求1所述的基于注意力的语音情绪状态评估方法,其特征在于:所述S1步中,语谱图在经过每层卷积层处理后均获得特征图;特征图具有三个维度,包括代表通道数的厚度C、代表频率轴的高度H和代表时间轴的宽度W;时空注意力模块由通道注意力模块单元和空间注意力模块单元组成;
在通道注意力模块单元中,输入特征图F∈C×H×W,对H×W空间面进行全局平均池化压缩,得到通道描述子通过两个全连接层和Sigmoid激活函数将通道描述子映射成通道注意力权重将通道注意力权重与原特征图F进行对应点相乘得出新特征图其过程公式如下:
其中,W1和B1分别为第一个全连接层的权重系数和偏置值,W2和B2分别为第二个全连接层的权重系数和偏置值,σs为Sigmoid激活函数、Avgspatial指沿着H×W空间面的全局平均池化函数;
在空间注意力模块单元中,将新特征图沿着C轴进行全局平均池化压缩得到空间描述子通过一层卷积层和ReLU激活函数生成空间注意力权重将空间注意力权重与特征图对应点相乘得到全新的特征图其过程公式如下:
其中,W7×7为这一卷积层的卷积核权重系数,卷积核大小为7×7,B3为这一卷积层的偏置值,*为卷积运算符号,σr为RELU激活函数、Avgchannel为沿着C轴的全局平均池化函数;
所述频率注意力模块中,将第四层卷积层的输出特征图进行深度列卷积处理,深度列卷积核得到了不同通道的不同频率模式结果其过程的公式如下:
其中,B4为深度列卷积的偏置值,为深度列卷积运算符号;
沿着时间轴W轴对特征图进行全局平均池化压缩得到通道描述子将通道描述子输入到具有C个神经元的全连接层;计算频率注意力的结果FFQ;其过程的公式如下:
其中,为全连接层的权重,也是由网络学习出来的通道权重,B5为全连接层的偏置值,Avgtime指沿着W轴的全局平均池化函数;
最后将其输入具有4个神经元的全连接层和softmax函数得到情绪状态预测结果。
3.根据权利要求1所述的基于注意力的语音情绪状态评估方法,其特征在于:所述S2步和S3步中,获取语谱图的方法是对音频数据进行分割、分帧处理、短时傅里叶变换、归一化处理,来获取语谱图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010143924.2/1.html,转载请声明来源钻瓜专利网。