[发明专利]一种基于情景感知的多模态抑郁症检测系统有效
申请号: | 201911198356.X | 申请日: | 2019-11-29 |
公开(公告)号: | CN110728997B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 苏荣锋;王岚;燕楠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/66;G10L25/03;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 情景 感知 多模态 抑郁症 检测 系统 | ||
本发明提供一种基于情景感知的多模态抑郁症检测方法和系统。该方法包括:构建训练样本集,所述训练样本集包括话题信息、语谱图和对应的文本信息;使用卷积神经网络,结合多任务学习,对所述训练样本集的语谱图进行声学特征提取,获得具备情景感知的声学特征;利用所述训练样本集,使用Transformer模型对词嵌入进行处理,提取具备情景感知的文本特征;对于所述情景感知的声学特征建立进行抑郁症检测的声学通道子系统,对于所述情景感知的文本特征建立进行抑郁症检测的文本通道子系统;对所述声学通道子系统和所述文本通道子系统的输出进行融合,获得抑郁症分类信息。本发明能够提高抑郁症检测的准确性。
技术领域
本发明涉及抑郁症检测技术领域,尤其涉及一种基于情景感知的多模态抑郁症检测方法和系统。
背景技术
在与抑郁症相关的特征提取方面,早期的基于语音的抑郁症相关研究主要集中于时域特征,例如停顿时间、录音时间、对问题的反馈时间、语速等。后来,人们发现单一的特征无法涵盖具有足够辨识度的信息去辅助临床诊断。随着对语音信号的深入研究,大量其余语音信号特征被构造出来。研究者尝试了各种语音特征组合,希望可以构建出检测抑郁症患者的分类模型。这些特征有音高(pitch)、能量(energy)、语速(speaking rate)、共振峰(formant)、梅尔倒谱系数(MFCC)等特征。文本是另外一种“隐藏”在语音信号中的与抑郁症相关的信息,它较容易从语音信号中获得。研究表明,抑郁患者使用消极情感词和愤怒词明显较正常人多。而人们常常使用词频统计作为文本特征表示。这种特征属于底层(low-level)的文本特征,最近人们更偏向于使用高层次(high-level)的文本特征来描述抑郁状态,也就是所谓的词嵌入(word embedding)特征,获取词嵌入特征的常用网络结构有skip-gram或者CBOW(continuous bag-of-words)等。
在有限抑郁症语音文本数据条件下进行抑郁症检测方面,鉴于抑郁症患者的语音文本数据很难进行大规模采集,因此可用于研究抑郁症的语音数据库一般规模较小。目前研究者一般只能采用较为简单的分类模型进行抑郁症检测。传统的基于语音的抑郁症检测方法有:支撑向量机(Support Vector Machine,SVM)、决策树、混合高斯模型(GaussianMixture Model, GMM)等。深度学习是机器学习的一个新的领域,它通过使用多层的非线性转换进行组合,对数据进行高层次抽象建模。利用深度学习算法,能够使得原始数据更加容易的适应各种方向的学习训练。例如,利用CNN 和LSTM组合成一个新的深层网络,然后对语音信号提取声学特征,并用于抑郁症的检测。又如,通过对医生与抑郁症患者的对话进行语义分析,如停留词提取(filled pause extraction)、主成分分析(Principal ComponentsAnalysis,PCA)、白化变换(whitening transform)等技术,从中得到一些文本特征并结合一个线性支撑向量回归器(Support Vector Regressor,SVR) 分类器进行抑郁症分类。再如,首先使用独立的LSTM层分别对声学通道和文本通道进行处理,然后再把其中的输入特征输入到全连接层中,最后进行抑郁症类别输出。现有技术所使用的声学特征是一些人工定义的279 维特征,而文本特征是使用Doc2Vec工具提取得到的100维词嵌入向量。
在现有技术中,通常采取基于生化试剂和基于脑电的检测手段,而在基于语音、文本或图像的技术方案中,多以语音数据为依托,在特征提取及分类的基础上进行抑郁症检测。简言之,现有技术主要存在以下几方面的问题:训练数据量方面,现有的基于语音、文本或图像的多模态抑郁症检测系统大部分由有限抑郁症数据训练得到,因此性能低下;特征提取方面,现有特征提取方法缺少话题情景相关的言语信息,在抑郁症检测领域表现力不足,限制了最终抑郁症检测系统的性能;抑郁症分类建模方面,现有技术没有考虑语音、文本特征与抑郁症诊断的长时间依赖关系;多模态融合方面,现有技术简单地把不同模态或通道下所得到的子系统输出串联在一起,最终进行决策,忽略了各个模态或通道之间的轻重关系,因此性能受到限制。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911198356.X/2.html,转载请声明来源钻瓜专利网。