[发明专利]一种基于共性特征提取的跨语种语音情感识别方法和系统有效
申请号: | 202111169207.8 | 申请日: | 2021-10-08 |
公开(公告)号: | CN113611286B | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 李太豪;郑书凯;刘逸颖;阮玉平;张晓宁 | 申请(专利权)人: | 之江实验室 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/05;G10L15/06;G10L15/16;G10L25/63 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 共性 特征 提取 语种 语音 情感 识别 方法 系统 | ||
1.一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,包括如下步骤:
步骤一、采集含标注信息的英文情感语音数据和不含标注信息的其他语种情感语音数据;
步骤二、对情感语音数据进行预处理,生成含相位的声谱图;
步骤三、去除声谱图前后静音段,后输入至网络得到语音深度特征信息,计算得到语音深度特征最大均值误差;
步骤四、将语音深度特征信息输入至分类网络计算得到带标签数据输出的分类概率,结合向量化标签数据得到的标签表征,计算得到含标注信息的英文情感语音数据分类误差;
步骤五、根据语音深度特征最大均值误差和含标注信息的英文情感语音数据分类误差,训练得到跨语言情感语音分类模型;
步骤六、输入待预测音频处理后的声谱图至训练好的跨语言情感语音分类模型,预测出语音情感;
其中,所述步骤一,具体包括以下步骤:
S1、通过网络搜索开源数据集,下载带情感标注的英文语音数据,英文语音数据表示为,标签数据表示为;
S2、通过网络搜索或者主动录音采集,下载不含情感标注的非英文语种语音数据,表示为;
所述步骤二,具体为:
S3、对S1和S2采集的语音数据和,通过短时傅里叶变换,生成带相位信息的声谱图信息即梅尔谱图信号,分别对应表示为、;
所述步骤三,具体包括以下步骤:
S4、对S3生成的梅尔谱图信号、,计算不同时间帧声谱图信息的能量大小,通过设置阈值,切除前后静音段,得到长度为的声谱图信息,分别表示为、;
S5、将S4得到的、输入到由复数网络结构构成的特征提取子网络,得到语音深度特征信息和;
S6、将S5得到的语音深度特征信息和,通过最小化均值误差,得到模型特征相似度损失, 表达式为:
其中,ns是输入模型的英文数据数量,nt是输入模型其他语种数据数量,xi与xj为特征的下标分别为i和j的元素,特征为矩阵,表示为:
yi与yj为特征的下标分别为i和j的元素, 特征矩阵,表示为:
k表示高斯核函数,可表示为:
其中,b根据数据集进行调整取值;
所述步骤四,具体包括以下步骤:
S7、将S5得到的语音深度特征信息输入到情感分类处理网络,得到情感预测概率特征;
S8、将S1得到的标签数据使用One-hot技术进行表征,得到标签表征,表示为;
S9、将S7得到的情感预测概率特征和S8得到的标签表征,通过交叉熵函数,计算得到模型损失,表达式为:
其中,C是情感类别数量。
2.如权利要求1所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤五,具体为:
S10、将S6得到的模型特征相似度损失和S9得到的模型损失进行累加后通过神经网络梯度更新方法,优化网络模型,得到训练好的跨语言情感语音分类模型。
3.如权利要求2所述的一种基于共性特征提取的跨语种语音情感识别方法,其特征在于,所述步骤六,具体为:
S11、将待预测的任意语种语音进行预处理,生成带相位声谱图信号,将此梅尔谱图信号输入到训练好的跨语言情感语音分类模型,预测得到语音的情感类别。
4.一种基于共性特征提取的跨语种语音情感识别系统,其特征在于,包括:
语音信号采集模块,用于采集用户语音信号,语音信号包括含标注信息的英文情感语音数据和不含标注信息的其他语种情感语音数据;
语音信号预处理模块,用于将采集到的语音信号进行预处理,生成含相位的声谱图,再进行端点检测,去除声谱图信号前后静音段,生成可用于神经网络处理的数据;
跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图,得到语音深度特征信息,训练出情感识别模型,预测用户音频的情感类型;
分析存储模块,用于利用Oracle数据库,存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。
5.如权利要求4所述的一种基于共性特征提取的跨语种语音情感识别系统,其特征在于,所述预处理,具体包括:预加重、分帧、加窗、短时傅里叶变换、静音去除操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱特征提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111169207.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:降雨条件下滚石斜坡失稳机理模拟试验装置
- 下一篇:一种手表连接扣组装设备