[发明专利]一种基于深度学习的肢体语言检测与行为分析方法及系统有效
申请号: | 201911048238.0 | 申请日: | 2019-10-30 |
公开(公告)号: | CN110929762B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 唐云飞;辛淼;程健 | 申请(专利权)人: | 中科南京人工智能创新研究院;中国科学院自动化研究所 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/82;G06N3/0464;G06N3/08;G06N3/0442 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 窦贤宇 |
地址: | 211000 江苏省南京市创*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 肢体 语言 检测 行为 分析 方法 系统 | ||
1.一种基于深度学习的肢体语言检测与行为分析方法,其特征是包括以下步骤:
步骤1、制作训练集:对行为情感逻辑建模,丰富数据集,予以标注后制作成训练集;
步骤1-1、对目标的日常行为视频、图片以及语音进行提取,分别获取目标在不同情绪下的面部表情以及四肢行为的图片及视频,获取在相应情绪下的语音数据,丰富数据集,予以标注后制作成训练集;
步骤1-2、使用图片及视频帧数据训练CNN模型,所述图片及视频帧数据的关键点为面部表情,头部动作,四肢动作,整体动作频率,利用这4点训练所述CNN模型;
将原图片和视频帧数据转化为Ycbcr图像,提取其亮度通道YL,将该通道YL进行下采样得到单通道图像YL′;对亮度通道YL进行相邻插值运算,得到插值图像YLc,对亮度通道YL进行强度为0.8的锐化得出锐化图像YLR,最终将单通道图像YL′、插值图像YLc、锐化图像YLR以0.8:0.9:1.1的比率混合形成多通道图像Ym;图片和视频帧数据通过卷积运算,从而将所述CNN模型分割为输入层、卷积层、输出层,其中,输入层的大小为n×n,通道数为12;卷积层为两层,分别记为C1层和C2层,其中,C1层的卷积特征图为128个,其尺寸为(n-8+1)×(n-8+1);由每个8×8的卷积核对输入图像进行内卷积,并对卷积结果进行第一次激活:
Fc1=max(0,W1×Ym+B1)
式中,Fc1表示第一层卷积层C1的激活函数,Ym表示多通道图像,B1表示第一层卷积层C1的比率因子,W1表示第一层卷积层C1的放大因子;
C2层的卷积特征图为128个,其尺寸为(n-16)×(n-16),将经过C1层的输出量作为变量输入到C2层,使用128个卷积核对C2层中的数据进行卷积运算,并对卷积结果进行第二次激活:
式中,Fc2表示第二层卷积层C2的激活函数,B2表示第二层卷积层C2的比率因子,W2表示第二层卷积层C2的放大因子;
构造超分辨重构模型,采用均方误差作为损失函数:
式中,表示高分辨率图像块,YL表示亮度通道,N表示抽取图像块的数量,K0表示调节系数;
步骤1-3、使用语音数据训练LSTM,最后将两个模型进行集成训练,合成集成模型,最终会产生3个模型,保证模型支持语音或图片单独检测的能力;
步骤2、肢体语言检测及行为分析:通过视频拍摄装置获取目标生物的视频语音片段,将其作为模型的输入,执行分类任务;
通过视频拍摄装置获取目标生物的视频语音片段,视频与语音需要同步输入,针对不同的输入使用不同的模型,将视频拍摄装置获取到的目标生物的视频片段与训练集中的图片及视频帧数据比对,对每个像素点上使用差分算子为(-1,0,1)在垂直和水平方向进行运算,计算其梯度值和梯度方向:
梯度方向:
式中,Gx表示图像沿x方向的梯度,Gy表示图像沿y方向的梯度,表示最大变化率方向上的单位距离增加的量,T表示梯度参数;
梯度值:
步骤3、行为应对指导:抓取网络数据,将步骤2中的结果与步骤1中训练集中的数据集的输出序列进行比对,若插值小于阈值,则判定为属于被比对对象的行为,将结果通过图形界面反馈给用户;若插值大于阈值,则将步骤2中的结果记录在数据集中并做好标记。
2.根据权利要求1所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1-1进一步包括:
提取出模型特征作为训练样本,计算输入量与输出量之间关联性的估计函数,训练系统对于不同输出量的预测能力:
式中,ω表示广义参数,h表示所预测的函数集的最大训练能力,n为训练样本,η∈[0,1],R(ω)表示期望风险。
3.根据权利要求1所述的一种基于深度学习的肢体语言检测与行为分析方法,其特征在于,所述步骤1-3进一步包括:
使用LSTM结构输出序列S:
式中,A表示状态转移概率矩阵,表示A从状态yi转移到状态yi+1所需要的状态转移概率,T*k表示输出矩阵的大小,其中,T表示序列的长度,k表示标签的数量;h(t)表示深度神经网络上一层时刻t输入数据时的隐藏状态;bs表示输出序列S的偏置值;
采用高斯-伯努利模型对语音数据进行处理,其能量函数定义如下:
式中,vi表示第i个可视层神经元,hj表示第j个隐层神经元,wij表示连接权值,ai表示对应于可视层神经元的偏置值,bj表示对应于第j个隐层神经元的偏置值,σi表示高斯噪声标准差,表示学习率;
对能量函数进行激活概率计算:
式中,p(h,θ)表示可视层神经元的激活概率,p(v,θ)表示隐层神经元的激活概率,其余各符号含义同上;
为求得每层的模型连接参数θ,采用梯度上升法来极大化概率的对数似然函数:
式中,表示模型的期望,表示数据的期望。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科南京人工智能创新研究院;中国科学院自动化研究所,未经中科南京人工智能创新研究院;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911048238.0/1.html,转载请声明来源钻瓜专利网。