[发明专利]端到端的音视频抑郁症自动检测研究方法有效
申请号: | 202110188624.0 | 申请日: | 2021-02-19 |
公开(公告)号: | CN112560811B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 陶建华;蔡聪;刘斌;牛明月 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G10L25/30;G10L25/57;G10L25/63;G10L25/66;A61B5/16 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;刘蔓莉 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 端到端 视频 抑郁症 自动检测 研究 方法 | ||
本申请涉及端到端的音视频抑郁症自动检测研究方法,包括:采集音频文件和视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;音频文件和视频文件预处理:将长时音频文件切分成若干个音频段,同时将长时视频文件切分成具有固定帧数的多个视频段;将每一个音频段和视频段分别输入音频特征提取网络和视频特征提取网络,得到音频深度特征和视频深度特征;使用多头注意力机制对深度音频特征和深度视频特征进行计算,得到注意力音频特征和注意力视频特征;将注意力音频特征和注意力视频特征通过特征聚合模块聚合成音视频特征;将音视频特征输入决策网络,预测音视频文件中的个体的抑郁水平。
技术领域
本申请涉及语音处理和图像处理领域,尤其涉及端到端的音视频抑郁症自动检测研究方法。
背景技术
抑郁是一种使人情绪低落,无法正常参与社会生活的精神疾病。更严重的是,抑郁症会导致自残和自杀行为。根据世界卫生组织2017年的数据,全球约有3.5亿抑郁症患者,到2030年,抑郁症将成为第二大死因。早期诊断和治疗可以帮助患者尽快摆脱困境,然而,诊断过程通常很费力,主要依靠医生的临床经验,这会导致一些患者无法及时得到适当的治疗。因此,有必要研究一种自动诊断抑郁症的方法,以帮助医生提高工作效率。
自动抑郁检测的目的是探索健康个体和抑郁病人在语音和面部的变化规律,并设计相应的模型和方法来使机器具备捕获抑郁线索的能力,增强其诊断能力,提升诊断效率。现有技术中主要通过为个体录制音视频,提取音视频中能够体现个体抑郁水平的特征,将特征聚合分析后,进行抑郁水平预测。
现有技术中存在的问题是大多数使用多步骤、多模型来进行预测,不仅各个模板的目标函数跟最终的预测目标有偏差,而且容易累积误差,造成预测结果的不准确;另一个问题是现有的抑郁症检测特征提取方法并不是针对抑郁检测的,因此在抑郁检测任务上准确率不高。
专利申请公布号CN 109171769 A公开一种应用于抑郁症检测的语音、 面部特征提取方法及系统。根据能量信息法将音频数据进行特征提取,得到频谱参数和声学参数;将上述参数输入第一深度神经网络模型,得到语音深度特征数据;将视频图像进行静态特征提取,得到帧图像;将帧图像输入第二深度神经网络模型,得到面部特征数据;将视频图像进行动态特征提取,得到光流图像;将光流图像输入第三深度神经网络模型,得到面部运动特征数据;将面部特征数据和运动特征数据输入第三深度神经网络模型,得到面部深度特征数据;将语音深度特征数据和面部深度特征数据输入第四神经网络模型,得到融合数据。采用本发明的方法或系统能够提高抑郁症的筛查结果的精度和提高抑郁症的检测效率。
专利申请公布号CN 110556129 A提供了一种双模态情感识别模型训练方法及双模态情感识别方法,其中,该双模态情感识别模型训练方法包括:将语音训练数据输入第一神经网络模型进行训练,以得到语音情感识别模型;将图像训练数据输入第二神经网络模型,采用第一损失函数进行第一阶段的有监督训练,以得到第一阶段的初始图像情感识别模型;将图像训练数据输入第一阶段的初始图像情感识别模型,采用第二损失函数进行第二阶段的有监督训练,以得到目标图像情感识别模型,将所述语音情感识别模型及所述目标图像情感识别模型进行决策级融合,以得到双模态情感识别模型。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了端到端的音视频抑郁症自动检测研究方法,包括:
S1:采集音频文件和视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;
S2:音频文件和视频文件预处理:将长时音频文件按一定的采样率进行采样,得到长时音频文件的原始波形点,并且切分成若干个音频段,同时将长时视频文件按一定的采样率进行采样,将长时视频文件切分成具有固定帧数的多个视频段;
S3:将每一个音频段和视频段分别输入音频特征提取网络和视频特征提取网络,得到音频深度特征和视频深度特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110188624.0/2.html,转载请声明来源钻瓜专利网。