[发明专利]基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法在审
申请号: | 201910138946.7 | 申请日: | 2019-02-25 |
公开(公告)号: | CN109935243A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 邹东升;史晶;吴戈;唐维 | 申请(专利权)人: | 重庆大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L17/02;G10L25/45;G10L25/27;G10L25/18;G10L15/04 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 武君 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积 语音情感 多尺度 时频域 空洞 数据增强 和频 频谱 时域 算法 融合 语音 语音采集设备 分类准确度 傅里叶变换 层次特征 频谱特征 数据扰动 特征提取 频谱图 输入图 数据量 域信息 频域 缩放 细化 句子 送入 输出 分类 概率 网络 | ||
本发明公开一种基于VTLP(Vocal Tract Length Perturbation)数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,主要通过结合VTLP数据扰动算法以及时频域空洞卷积网络解决语音情感识别过程中数据量少且数据不平衡和特征提取不充分的问题,本发明首先通过语音采集设备获取初始语音,然后通过VTLP算法得到不同频谱特征的语音,然后通过傅里叶变换得到有效的频谱图,然后将频谱原图进行多尺度缩放,将频谱输入图经过设计的时频域卷积层,分别从谱图中获取时域和频域的低层次特征,将时域和频域信息进行特征级融合,然后将融合特征送入下一层空洞卷积层,从融合特征中提取句子级细化特征,最后将情感概率值最大的类别输出,根据分类评价方式,生成语音情感分类准确度。
技术领域
本发明属于深度学习中的模式识别领域,具体涉及一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法。
背景技术
随着人工智能的迅猛发展,已经到感知智能的阶段,人类行为多方面建模技术的不断改进,情感识别已成为人机交互研究的一个重要领域。随着科技的进步,人们对情感的解释在不断进步,对自动情感识别的需求也在不断增长。语音情感识别(SER)在人工智能领域是一个很重要且具有挑战性的任务,随着越来越多的人机交互的产品的开发,SER任务应用在各个领域,比如情感状态可以用来检测人的疲劳状态,可以用于呼叫中心对打电话者情绪的检测,机器在与人类交互的第一步是实现对人类的理解,进而采取不同的策略进行应答,所以语音情感识别的研究变得尤为重要。
目前,语音情感识别方向的研究主要分为传统方式和基于深度学习两种方式,传统的语音情感分类器主要有:隐马尔可夫模型、混合高斯模型、支持向量机、人工神经网络等。基于深度卷积神经网络算法已经应用到包括计算机视觉等诸多人工智能应用,并且在很多人工智能应用之中表现出了当前最佳的准确度,使深度卷积神经网络的的应用量有了迅速的增长,如卷积神经网络、循环神经网络、深度置信网络,长短时记忆网络等。
发明内容
为了实现上述目的,本发明提出一种基于VTLP((Vocal Tract LengthPerturbation))数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,其特征在于:包括以下步骤:
S1:部署TensorFlow深度学习框架,对初始语音进行预处理,实现切割、预加重、分帧加窗以及端点检测算法,优化输入语音的质量,标注情感类别;
S2:基于公开的语音数据集,针对每类情感,分别应用VTLP扩充数据集,形成完整数据;
S3:基于S2生成的数据集使用傅里叶变换生成相应频谱图,将谱图做不同尺度缩放,作为网络输入;
S4:基于S3生成的频谱图,构建时频域特征粗提取网络,提取频谱图的时频域特征,调整网络参数;
S5:将S4提取的时频域特征做特征级融合,构建句子级细化特征提取网络,部署空洞卷积;
S6:将S5中训练好的网络对语音中的情感进行识别,得出类别概率和识别准确度,完成语音情感的识别。
进一步,步骤S1所述的对初始语音进行预处理,按照以下步骤进行:
S1-1:设n时刻的语音采样值为x(n),其中n=0,1,2,3,…,做预加重处理,预加重公式为:
y(n)=x(n)-ax(n-1),
其中,a为预加重系数,这里a=0.98,y(n)为预加重之后的语音;
S1-2:对预加重后的语音y(n)进行分帧加窗处理,进行短时处理,将语音信号分成若干段短时语音,分帧加窗表达式:
Sw(n)=y(n)*w(n),
其中,w(n)为窗函数,汉明窗的表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910138946.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可打断式语音处理系统和方法
- 下一篇:一种接触式硬盘磁头及其制备方法