[发明专利]基于注意力机制和卷积神经网络的语音抑郁症识别系统有效
申请号: | 201811343483.X | 申请日: | 2018-11-13 |
公开(公告)号: | CN109599129B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 戴国骏;商吉利;沈方瑶;胡焰焰;张桦 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G10L25/66 | 分类号: | G10L25/66;G10L25/45;G10L25/30;G10L25/18;G10L15/02;G10L15/04;G10L15/14 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于注意力机制和卷积神经网络的语音抑郁症识别系统。本发明首先对语音数据进行预处理,对较长的语音数据进行分割,依据的是分割后的片段能够充分包含抑郁症相关的特征。然后对分割后每个片段提取梅尔频谱图,调整其输入到神经网络模型的频谱图尺寸大小,以便模型的训练。之后用预训练好的Alexnet深度卷积神经网络进行权值的微调,提取梅尔频谱图中更高级的语音特征。然后用注意力机制算法,对片段级语音特征进行权重调整,得到句级的语音特征。最后对句级语音特征用SVM分类模型进行抑郁症的分类。本系统考虑了和抑郁症相关的语音特征的提取,提供一种基于语音的抑郁症识别的新系统。 | ||
搜索关键词: | 基于 注意力 机制 卷积 神经网络 语音 抑郁症 识别 系统 | ||
【主权项】:
1.基于注意力机制和卷积神经网络的语音抑郁症识别方法,其特征在于通过语音数据的预处理、提取语音频谱图、构建深度卷积神经网络预训练模型得到片段级特征、用注意力机制算法得到句级特征、SVM模型分类输出结果;具体实现包括如下步骤步骤1、语音数据的预处理,包括:将语音抑郁症识别的语音数据集中的所有语音样本,分为训练集、验证集和测试集三部分;分析所有语音样本的语音数据,从提问方式的语音样本中挑选出10句最长的句子,去掉提问者的语音,只保留被试者的语音数据;最后对每个语音样本的10个句子进行标定标签,标定和原语音样本相同的标签;从而产生语音抑郁症识别的样本;步骤2、提取语音频谱图,包括:对每个语音样本的10个句子,按窗口大小分割语音数据,从而对每个片段提取RGB三通道的语音频谱图;然后堆叠三通道的频谱图,调整频谱图的尺寸大小,作为卷积神经网络的输入;步骤3、构建深度卷积神经网络预训练模型得到片段级特征,包括:构建深度卷积神经网络,对网络进行预训练,然后将语音频谱图输入到卷积神经网络中,进行权值的微调,从而提取语音频谱图中更深层的特征,即得到每个语音分割片段的语音特征;步骤4、用注意力机制算法得到句级特征,包括:通过卷积神经网络得到了每个片段的语音特征,然后融合一个句子的所有片段特征,填充到相同长度,并用attention模型对得到的融合特征进行权值调整,最后训练attention模型,得到语音的句级特征;步骤5、SVM模型分类输出结果,包括:构建SVM分类器模型,然后用得到的句级特征进行训练,最后输出语音的抑郁症识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811343483.X/,转载请声明来源钻瓜专利网。