[发明专利]基于微笑范式和音视频行为分析的孤独症早期筛查系统有效
申请号: | 201910605990.4 | 申请日: | 2019-07-05 |
公开(公告)号: | CN110363129B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 李明;邹小兵;潘悦然;蔡昆京 | 申请(专利权)人: | 昆山杜克大学;中山大学附属第三医院 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V40/20;G06V20/40;G06V40/70;G16H50/20;G16H50/30;G10L15/26;G10L25/66 |
代理公司: | 佛山帮专知识产权代理事务所(普通合伙) 44387 | 代理人: | 颜春艳 |
地址: | 215300 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 微笑 范式 视频 行为 分析 孤独症 早期 系统 | ||
1.一种基于微笑范式和音视频行为分析的孤独症早期筛查系统,其特征在于,包括:
数据采集模块,用于采集逗笑试验过程中被试者、评估者和道具的多个RGB-D摄像头视角多声道的音视频多模态数据;
预处理模块,用于同步采集到的多视角多声道的音视频数据,检测并标记不同逗笑刺激发出的时间以供后续分析;
特征提取模块,用于对预处理获取的被试者、评估者全部角度的视频数据段落,分别进行逐帧分析处理,获取脸部、朝向、目光和手势的特征;
训练分类模块,对分段落视频数据提取的特征进行训练,得到分段落范式打分的分类器模型及整个范式的孤独症预测分类器模型;
预测模块,采用特征提取模块对整个范式视频进行分段落的脸部、朝向、目光和手势特征提取,并使用分类器模型对范式分段落进行打分,对测试者的孤独症风险进行评估预测;
其中,所述特征提取模块包括表情识别单元、头部姿态估计单元、目光追踪单元、手势检测与识别单元,
所述表情识别单元对预处理所得视频进行检测,对获取的人脸正脸识别出表情;
所述头部姿态估计单元使用正脸检测获取脸部特征点,根据脸部特征点计算脸部平面的法线向量并转化为头部朝向;
所述目光追踪单元对预处理所得视频进行检测,根据获取的被检测人眼部数据得到被检测人的目光朝向,得到眼神特征;
所述手势检测与识别单元检测手部的矩形框,并给出手势的分类;
所述训练分类模块分别对刺激段落视频数据进行脸部表情、头部朝向、目光和手势的特征提取,使用机器学习算法进行分类模型的训练,然后得到分段落范式打分的分类器模型;然后又将所有的段落特征及标签组合作为新的输入特征,对整个社会性的微笑范式的孤独症打分分数作为标签,使用机器学习算法进行训练,得到整个范式的孤独症预测分类器模型。
2.根据权利要求1所述的孤独症早期筛查系统,其特征在于,所述RGB-D摄像头隐秘布置在试验场地中,多角度全方位采集试验场地深度视频,通过麦克风阵列和/或分别佩戴于被试验者、评估者身上的可穿戴麦克风多声道采集说话人的说话语音和环境声音。
3.根据权利要求1所述的孤独症早期筛查系统,其特征在于,所述表情识别单元使用残差神经网络在人脸表情数据库上训练表情模型,模型输出多种不同的表情对应的概率得分,其中概率得分最大的即为分类表情;对RGB视频的每帧图像使用正脸人脸检测算法获得脸部矩形框,然后对脸部框做人脸对齐之后,输入到表情识别模型,输出得到每张人脸的表情分类。
4.根据权利要求1所述的孤独症早期筛查系统,其特征在于,所述头部姿态估计单元识别人的脸部朝向,先使用正脸检测算法检测RGB视频图像帧中的人脸,获取脸部的landmark标记点,之后得到对应的深度图中的深度,根据公式对标记点计算每个点的世界空间坐标系的3D坐标,每个点组合起来就得到脸部在空间中的点云,根据脸部特征点的点云坐标,计算脸部平面的法线向量,然后将法线向量转化为表示头部朝向的欧拉角。
5.根据权利要求1所述的孤独症早期筛查系统,其特征在于,所述目光追踪单元用来跟踪被试者以及评估者的眼神注视方向,首先利用正脸检测算法获取RGB视频帧中的脸部特征点,从中选取出双眼的特征点,然后利用空间坐标变换计算出双眼特征点的世界坐标系3D坐标;把双眼的3D坐标输入到目光追踪神经网络模型中,输出目光的朝向。
6.根据权利要求1所述的孤独症早期筛查系统,其特征在于,所述手势检测与识别单元标注手势,标注结果包含手部的矩形框的四角坐标以及手势的分类,然后使用物体检测分类器训练出一个手势的检测器,检测器检测画面中的手部并识别手势,并给出其矩形框坐标以及所属的手势分类的置信度得分。
7.根据权利要求1所述的孤独症早期筛查系统,其特征在于,微笑范式的设计包括:
第一类逗笑为玩具突然发动刺激,属于非社会性微笑;
第二类逗笑为对视微笑刺激,属于社会性微笑刺激;
第三类逗笑为语音刺激,属于社会性微笑刺激;
第四类逗笑为躲猫猫游戏刺激,属于社会性微笑刺激;
第五类逗笑为暗示性身体接触刺激,属于社会性微笑刺激;
第六类逗笑为身体接触刺激,属于分享性微笑刺激;
其中通过语音识别根据不同类别逗笑刺激的关键词以及表情和动作识别对各类逗笑进行试验子试验分段,以一种提示语音分别对应一种逗笑刺激,依据特定语音内容分割音视频,分别得到不同种类逗笑刺激段落的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆山杜克大学;中山大学附属第三医院,未经昆山杜克大学;中山大学附属第三医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910605990.4/1.html,转载请声明来源钻瓜专利网。