[发明专利]一种用于语音情感识别的新特征提取方法在审
申请号: | 201910168424.1 | 申请日: | 2019-03-06 |
公开(公告)号: | CN109767789A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 关昊天;张林娟 | 申请(专利权)人: | 慧言科技(天津)有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/03 |
代理公司: | 北京栈桥知识产权代理事务所(普通合伙) 11670 | 代理人: | 潘卫锋 |
地址: | 300384 天津市西青区天津华苑产业*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音情感 光谱特征 组合光谱 新特征 光谱信息 深度特征 特征提取 先验知识 错误率 分段 优化 分类 融合 学习 | ||
1.一种用于语音情感识别的新特征提取方法,其特征在于,包括以下步骤:
第一步,计算分段语谱图:将句子分成固定长度的语音段,经过短时傅立叶变换之后,获得分段语谱图的原始光谱矩阵,其大小为M×N,其中M表示时间点的数量,N表示所选区域和频率分辨率;
第二步,特征准备与融合:
1)获取帧级LLDs和段级统计特征;
2)将固定帧数语音的LLDs特征按时间序列排列起来,构成段级时序LLDs特征,归一化后,获得时序LLDs的矩阵,其大小为M×P,其中M表示一段中的帧数,P表示LLDs的维数;
3)按照时间序列为轴,将所述分段语谱图和所述时序LLDs拼接在一起作为组合光谱特征的矩阵,其大小是M×Q;
4)将所述分段语谱图、时间序列LLDs和统计特征拼接在一起成优化光谱特征的矩阵,其大小为M×T;
第三步,特征提取与分类:利用CNN分别从组合光谱特征和优化光谱特征中提取深度特征并将它们按时间排列成话语级特征,送到BLSTM中完成7种情感分类,构建CNN-BLSTM模型。
2.如权利要求1所述的一种用于语音情感识别的新特征提取方法,其特征在于,第二步中所述帧级LLDs和段级统计特征是通过openSMILE工具包获取。
3.如权利要求1所述的一种用于语音情感识别的新特征提取方法,其特征在于,第二步中通过openSMILE工具包获取所述帧级LLDs和段级统计特征。
4.如权利要求1所述的一种用于语音情感识别的新特征提取方法,其特征在于,第二步的所述固定帧数具体为每25帧。
5.如权利要求1所述的一种用于语音情感识别的新特征提取方法,其特征在于,第二步中所述组合光谱特征的矩阵中第i句话语第j个时间段的组合光谱特征向量CSF可以表示为公式(1):
CSFij=[Sij,Lij] (1)
其中Sij,Lij分别对应的是第i句话中第j段的语谱图矢量和时序LLDs的矢量。
6.如权利要求1所述的一种用于语音情感识别的新特征提取方法,其特征在于,第二步中所述优化光谱特征的矩阵中第i个话语中第j个段的优化光谱特征向量RSF可以表示为公式(2):
RSFij=[Sij,Lij,Cij] (2)
其中,Cij表示第i个话语中第j个段的统计特征向量。
7.如权利要求1所述的一种用于语音情感识别的新特征提取方法,其特征在于,第三步中所述CNN-BLSTM模型具体构建步骤如下:
1)第一层是输入层,将第二步中得到的组合光谱特征和优化光谱特征分别输入到CNN中学习;
2)第二层是卷积层,有k1个卷积核,卷积大小为n1×n1;
3)第三层是池化层,对特征进行降采样,池化大小为p1×p1;
4)第四层是卷积层,有k2个卷积核,卷积大小为n2×n2;
5)第五层是池化层,对特征进行降采样,池化大小为p2×p2;
6)第六层是Dropout层,目的是为了避免神经网络过拟合;
7)第七层是展平层,目的是为了把二维的特征图谱扁平化成1维向量,便于后续将段级特征组合成话语级。
8)第八层是全连接层,有K个隐藏单元;
9)第九层是双向长短时记忆层,有L个隐藏单元;
10)第十层是双向长短时记忆层,有L个隐藏单元;
11)第十一层是输出层,即全连接层,有S个隐藏单元,激活函数为softmax。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司,未经慧言科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910168424.1/1.html,转载请声明来源钻瓜专利网。