[发明专利]基于注意力机制和卷积神经网络的语音抑郁症识别系统有效
申请号: | 201811343483.X | 申请日: | 2018-11-13 |
公开(公告)号: | CN109599129B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 戴国骏;商吉利;沈方瑶;胡焰焰;张桦 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G10L25/66 | 分类号: | G10L25/66;G10L25/45;G10L25/30;G10L25/18;G10L15/02;G10L15/04;G10L15/14 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 卷积 神经网络 语音 抑郁症 识别 系统 | ||
1.基于注意力机制和卷积神经网络的语音抑郁症识别系统,其特征在于,包括用于通过语音数据的预处理的模块、用于提取语音频谱图的模块、用于构建深度卷积神经网络预训练模型得到片段级特征的模块、用于用注意力机制算法得到句级特征的模块、用于SVM模型分类输出结果的模块;具体如下:
用于语音数据的预处理的模块,包括:
将语音抑郁症识别的语音数据集中的所有语音样本,分为训练集、验证集和测试集三部分;分析所有语音样本的语音数据,从提问方式的语音样本中挑选出10句最长的句子,去掉提问者的语音,只保留被试者的语音数据;最后对每个语音样本的10个句子进行标定标签,标定和原语音样本相同的标签;从而产生语音抑郁症识别的样本;
用于提取语音频谱图的模块,包括:
对每个语音样本的10个句子,按窗口大小分割语音数据,从而对每个片段提取RGB三通道的语音频谱图;然后堆叠三通道的频谱图,调整频谱图的尺寸大小,作为卷积神经网络的输入;
用于构建深度卷积神经网络预训练模型得到片段级特征的模块,包括:
构建深度卷积神经网络,对网络进行预训练,然后将语音频谱图输入到卷积神经网络中,进行权值的微调,从而提取语音频谱图中更深层的特征,即得到每个语音分割片段的语音特征;
用于用注意力机制算法得到句级特征的模块,包括:
通过卷积神经网络得到了每个片段的语音特征,然后融合一个句子的所有片段特征,填充到相同长度,并用attention模型对得到的融合特征进行权值调整,最后训练attention模型,得到语音的句级特征;
用于SVM模型分类输出结果的模块,包括:
构建SVM分类器模型,然后用得到的句级特征进行训练,最后输出语音的抑郁症识别结果;
用于语音数据的预处理的模块中所述的语音数据集,采用的是AVEC2017比赛子项目的数据库;数据库包含了189个被试者,包含107个训练集、35个验证集和47个测试集;该数据库的语音数据采集的过程是虚拟机器人Ellie通过访谈的方式提问被试者问题,记录其语音对话,每个个体的语音长度为7-35min;
用于语音数据的预处理的模块中所述的标签标定每个语音样本中10个句子的标签都是和原语音样本的标签一致,即原语音样本的标签如果是抑郁症,则对应的10个句子都是抑郁症标签,这等于将原来的数据集扩充了10倍数据,能够更好的训练网络;
用于提取语音频谱图的模块中所述语音频谱图的提取过程,包含如下子模块:
用于对每条语音数据进行预加重的子模块;
用于将预加重后的语音信号进行分帧的子模块;
用于对分帧后的语音信号进行加窗处理的子模块;
用于将加窗后的波形信号进行快速傅里叶变换的子模块;
用于最后将语音数据转换为RGB三通道的语音频谱图的子模块;
用于提取语音频谱图的模块中所述的RGB三通道的语音频谱图,三个通道分别为static、delta,、delta delta;其中static是上述过程后得到的原始语音频谱图,delta是通过static求解其一阶回归系数得到,delta delta是通过static求解其二阶回归系数得到;
所述调整语音频谱图大小,是由于输入到卷积神经网络的尺寸是固定的,需要调整频谱图的大小使其适合卷积神经网络的输入;选择64个梅尔滤波器,频率从20~8000Hz;语音分割段的长度选择64帧,则分割段的长度为10ms×63+25ms=655ms;最后得到64×64像素的语音频谱图,由于DCNN的输入固定为227×227,因此需要调整频谱图的大小以适应DCNN的输入;通过双线性插值的方法,将输出得到的64×64×3像素的频谱图调整为227×227×3像素大小;
用于构建深度卷积神经网络预训练模型得到片段级特征的模块中所述的DCNN卷积神经网络用到的是Alexnet网络模型;Alexnet包括5层卷积层、2层全连接层和1层softmax分类层;第1层卷积层后和第5层卷积层后面分别有1层池化层,池化层选择最大池化,全连接层后设有dropout层,用于防止训练数据不平衡出现过拟合现象,softmax层用于训练时的对抑郁症和非抑郁症归类;
用于构建深度卷积神经网络预训练模型得到片段级特征的模块中所述的预训练和权值微调过程,包含如下子模块:
用于首先采用重复采样方法对语音的抑郁症数据集进行数据平衡,使抑郁症和非抑郁症的语音片段数据大致做到相等的子模块;
用于迁移在ImageNet数据集上预训练Alexnet网络模型的权重参数,固定前5层卷积层的权重参数,使在网络训练时前5层的权重参数不变,只调整之后2层全连接层的参数的子模块;
用于用平衡好的语音数据集训练Alexnet神经网络,微调后2层全连接层的权值参数;在网络微调训练过程中,经softmax激活函数判断是否是抑郁症的子模块;
用于训练完后去除softmax层,然后连接上用于用注意力机制算法得到句级特征的模块中的attention算法模块;训练后续模块和测试时将DCNN的权值参数固定的子模块;
用于用注意力机制算法得到句级特征的模块中所述的融合一个句子的所有片段级语音特征是将一个句子的所有片段级语音特征按时间序列拼接成一个矩阵;由于每个句子的长度不相同,因此每个句子分割的片段数是不同的,因此矩阵的长度是不同的,将填充补0到相同长度的特征矩阵;依据的是,attention算法对抑郁症相关的特征片段赋予很高的权值,对于不相关的特征赋予很小或者0的权值,这样填充0的部分等于和抑郁症不相关,权值设为0,因此填充0到相同长度不影响整个识别结果;
用于用注意力机制算法得到句级特征的模块中所述的注意力机制算法,其表述如下:
式中,t为每一时段帧的编号,T为一个句子中帧的总数量,τ指某一帧的序号;yt为经过卷积神经网络输出的片段级特征,u为注意力参数向量,两者进行内积操作;αt为对最终整句语音的抑郁症表达所贡献的权值分数;
将得到的权值分数进行加权平均,z为得到的句级特征表示:
所述的训练attention模型的过程实际是训练权重矩阵的过程,权值分数αt和融合得到的片段级特征yt进行内积操作得到最后的句级特征;
用于SVM模型分类输出结果的模块中所述SVM分类输出结果的过程,包括构建SVM分类模型和训练模型两个过程;首先构建SVM分类器模型,然后用得到的所述句级特征进行训练,最后输出语音的抑郁症识别结果;
所述的SVM分类过程,在语音的抑郁症识别测试中,采用10倍交叉验证的技术,即所有语音数据平分为10份,9份数据用于训练,剩下1份数据用于测试,这样的过程重复10次得到的平均值作为最终的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811343483.X/1.html,转载请声明来源钻瓜专利网。