[发明专利]一种基于卷积神经网络的语音情感识别方法及系统在审
申请号: | 201810571892.9 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108899049A | 公开(公告)日: | 2018-11-27 |
发明(设计)人: | 刘振焘;曹卫华;吴敏;徐建平;胡旭晨;毛俊伟 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G06K9/62 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 郝明琴 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 特征提取 语音情感 语音信号 池化 卷积 预处理 情感特征提取 保证系统 情感识别 情感特征 输出语音 信号特点 分类器 时频域 实时性 特征图 再利用 分类 | ||
1.一种基于卷积神经网络的语音情感识别方法,其特征在于,包含以下步骤:
S1、获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);
S2、将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;
S3、构建卷积神经网络模型,对S2输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;
S4、构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为其中K为预设的情感类别数量,C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示语音信号特征图中样本点xi到超平面距离,即分类间隔;yi为语音样本点情感标签函数;
S5、利用所述构建的分类器SVM模型对步骤S3得到的语音信号特征图进行识别,输出情感特征分类结果既当分类间隔ωxk+b最大值时,获得的分类器编号k,从而获得第k个分类器对应的语音情感。
2.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S1包含以下步骤:
S11、将获取的语音信号x(t)进行采样和量化,以完成语音信号的采样和AD转换;
S12、将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理,获得预加重后的语音信号x(m);
S13、根据表达式将预加重后的语音信号进行分帧加窗处理;
其中,x(m)为预加重后的语音信号,x′d(n)为分帧加窗后的语音信号,ω(n)是窗函数,N为窗宽。
3.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S2包含以下步骤:
S21、应用傅里叶变换k=0,1,...,N-1对预处理后的语音信号x′d(n) 进行变换,得到语音信号x′d(n)的频域信号Xd(k),其中,d表示第d帧语音信号,N表示信号每一帧的长度,Xd(k)表示傅里叶变换后的语音频域信号;
S22、根据公式L=20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值,并对所述幅值进行归一化处理,将信号幅值绘制成语谱图。
4.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S3包含以下步骤:
S30、语谱图矩阵获取:根据S2得到的语谱图中一帧信号的幅值构成一个向量,多帧信号的幅值向量组成一个幅值矩阵,将所述幅值矩阵中的各个元素线性映射到[0,1]内,所述元素值构成了语谱图矩阵I;
S31、卷积层处理:将语谱图矩阵I与卷积核进行运算,得到卷积层对应的特征图;卷积过程为其中I为语谱图矩阵,K表示卷积核,M和N表示卷积核的宽度和高度;
S32、池化层处理:将卷积层对应的特征图作为池化层的输入,采用最大池化方法经过池化操作后产生一个对应的池化层的特征图;
S33、全连接层处理:对卷积层和池化层输出的特征图进行映射,实现非线性变换,获得语音信号特征图。
5.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S4中构建分类器SVM模型中的语音样本点情感标签函数具体为:
对于第k个SVM分类器,将语音样本点的情感标签yi设置为1,其余语音样本点的情感标签yi设置为-1,从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810571892.9/1.html,转载请声明来源钻瓜专利网。