[发明专利]端到端的音视频抑郁症自动检测研究方法有效
申请号: | 202110188624.0 | 申请日: | 2021-02-19 |
公开(公告)号: | CN112560811B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 陶建华;蔡聪;刘斌;牛明月 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G10L25/30;G10L25/57;G10L25/63;G10L25/66;A61B5/16 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孙剑锋;刘蔓莉 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 端到端 视频 抑郁症 自动检测 研究 方法 | ||
1.端到端的音视频抑郁症自动检测研究方法,其特征在于,包括:
S1:采集音频文件和视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据;
S2:音频文件和视频文件预处理:将长时音频文件按一定的采样率进行采样,得到长时音频文件的原始波形点,并且切分成若干个音频段,同时将长时视频文件按一定的采样率进行采样,将长时视频文件切分成具有固定帧数的多个视频段;
S3:将每一个音频段和视频段分别输入音频特征提取网络和视频特征提取网络,得到音频深度特征和视频深度特征;
所述音频特征提取网络包括,膨胀卷积层和时序池化层;
先将音频输入进行3次扩大卷积,卷积核数目设置为256,大小设置为2,膨胀率设置为2,卷积层数设置为4,输入通道为1,输出通道为256;再经过时序池化进行下采样,通道数和数据长度分别降到原来的一半,此时音频特征包含了音频样本的时序动态信息,提取出的特征更具有鲁棒性,是更高级的特征;所述视频特征提取网络包括,3D卷积层,双向长短记忆网络模块;
先将视频帧输入进行3D卷积,卷积核数目设置为8,大小设置为3×3×3,步长设置为(2,2,2);再将视频特征输入到双向长短记忆网络,其输出节点个数为64,捕获了视频的时序序列表示;
S4:使用多头注意力机制对深度音频特征和深度视频特征进行计算,得到注意力音频特征和注意力视频特征;
S5:将注意力音频特征和注意力视频特征通过特征聚合模块聚合成音视频特征;
S6:将音视频特征输入决策网络,预测音视频文件中的个体的抑郁水平。
2.根据权利要求1所述的端到端的音视频抑郁症自动检测研究方法,其特征在于,所述将长时音频文件按一定的采样率进行采样,并且切分成若干个音频段,以mat文件格式进行保存,原始MP4文件对应的标签就是mat文件的标签;所述切分成若干个音频段为,切分成固定长度的音频。
3.根据权利要求2所述的端到端的音视频抑郁症自动检测研究方法,其特征在于,所述将长时视频文件按一定的采样率进行采样,将长时视频文件切分成具有固定帧数的多个视频段,所提取的视频帧序列,按照jpg格式进行保存,原始MP4文件对应的标签就是jpg文件的标签。
4.根据权利要求1所述的端到端的音视频抑郁症自动检测研究方法,其特征在于,所述使用多头注意力机制对深度音频特征和深度视频特征进行计算,得到注意力音频特征和注意力视频特征的具体方法包括,
将音频深度特征和视频深度特征,分别输入多头注意力模块,得到不同权重分布的音频深度特征表示和不同权重分布的视频深度特征表示;
使用softmax函数将不同权重分布的音频深度特征表示和不同权重分布的视频深度特征表示归一化,得到不同特征的重视程度,得到音频注意力特征和视频注意力特征。
5.根据权利要求4所述的端到端的音视频抑郁症自动检测研究方法,其特征在于,所述多头注意力模块的注意力公式为,
其中,
其中,
6.根据权利要求1所 述的端到端的音视频抑郁症自动检测研究方法,其特征在于,所述特征聚合模块采用前馈神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110188624.0/1.html,转载请声明来源钻瓜专利网。