[发明专利]基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法在审
申请号: | 201910138946.7 | 申请日: | 2019-02-25 |
公开(公告)号: | CN109935243A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 邹东升;史晶;吴戈;唐维 | 申请(专利权)人: | 重庆大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L17/02;G10L25/45;G10L25/27;G10L25/18;G10L15/04 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 武君 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于VTLP(Vocal Tract Length Perturbation)数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,主要通过结合VTLP数据扰动算法以及时频域空洞卷积网络解决语音情感识别过程中数据量少且数据不平衡和特征提取不充分的问题,本发明首先通过语音采集设备获取初始语音,然后通过VTLP算法得到不同频谱特征的语音,然后通过傅里叶变换得到有效的频谱图,然后将频谱原图进行多尺度缩放,将频谱输入图经过设计的时频域卷积层,分别从谱图中获取时域和频域的低层次特征,将时域和频域信息进行特征级融合,然后将融合特征送入下一层空洞卷积层,从融合特征中提取句子级细化特征,最后将情感概率值最大的类别输出,根据分类评价方式,生成语音情感分类准确度。 | ||
搜索关键词: | 卷积 语音情感 多尺度 时频域 空洞 数据增强 和频 频谱 时域 算法 融合 语音 语音采集设备 分类准确度 傅里叶变换 层次特征 频谱特征 数据扰动 特征提取 频谱图 输入图 数据量 域信息 频域 缩放 细化 句子 送入 输出 分类 概率 网络 | ||
【主权项】:
1.一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,其特征在于:包括以下步骤:S1:部署TensorFlow深度学习框架,对初始语音进行预处理,实现切割、预加重、分帧加窗以及端点检测算法,优化输入语音的质量,标注情感类别;S2:基于公开的语音数据集,针对每类情感,分别应用VTLP扩充数据集,形成完整数据;S3:基于S2生成的数据集使用傅里叶变换生成相应频谱图,将谱图做不同尺度缩放,作为网络输入;S4:基于S3生成的频谱图,构建时频域特征粗提取网络,提取频谱图的时频域特征,调整网络参数;S5:将S4提取的时频域特征做特征级融合,构建句子级细化特征提取网络,部署空洞卷积;S6:将S5中训练好的网络对语音中的情感进行识别,得出类别概率和识别准确度,完成语音情感的识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910138946.7/,转载请声明来源钻瓜专利网。
- 上一篇:可打断式语音处理系统和方法
- 下一篇:一种接触式硬盘磁头及其制备方法