[发明专利]基于光流梯度幅值特征的人脸微表情检测方法有效
申请号: | 201911234416.9 | 申请日: | 2019-12-05 |
公开(公告)号: | CN110991348B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 于明;郜斌;师硕;郭迎春;刘依;郝小可;于洋;阎刚;朱叶 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/40;G06K9/62 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙) 12210 | 代理人: | 胡安朋 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 梯度 特征 人脸微 表情 检测 方法 | ||
1.基于光流梯度幅值特征的人脸微表情检测方法,其特征在于:首先根据人脸关键点拟合人脸边缘提取感兴趣区域,用FlowNet2网络提取视频序列中人脸图像帧间光流场,然后提取人脸感兴趣区域的光流梯度幅值特征,再计算及处理特征距离并进行噪声消除,完成基于光流梯度幅值特征的人脸微表情检测,具体步骤如下:
第一步,提取人脸感兴趣区域:
输入人脸图像视频序列,根据人脸关键点拟合人脸边缘提取感兴趣区域,即使用Dlib检测器检测人脸图像中81个标号的人脸关键点,包括在经典Dlib人脸检测器中已有的68个人脸关键点和在此基础上增加的前额13个人脸关键点,其中标号为1-17及69-81的人脸关键点为人脸边缘关键点,使用这些人脸边缘关键点进行椭圆拟合得到椭圆方程Q,椭圆方程Q的拟合目标函数如公式(1)所示,
公式(1)中,[p,q]为用于拟合椭圆的人脸关键点坐标,α,β,χ,δ,ε为椭圆方程Q的系数,F(α,β,χ,δ,ε)为包含系数α,β,χ,δ,ε的拟合目标函数,k表示用于拟合椭圆的第k个关键点,K为用于拟合椭圆的人脸关键点个数,
当以下公式(2)成立时,
得到F(α,β,χ,δ,ε)的最小值,此时求得椭圆方程Q的系数α·β,χ,δ,ε,由此得到椭圆方程Q,
使用眼睛部分标号为37,39,40,42,43,44,47,49的人脸关键点进行眼睛部分区域去除,其中使用标号为37,40的人脸关键点的纵坐标与标号为39,42的人脸关键点的横坐标组成右眼矩形区域,使用标号为43,46的人脸关键点的纵坐标与标号为44,47的人脸关键点的横坐标组成左眼矩形区域,
椭圆方程Q所包含的椭圆区域去除上述右眼矩形区域和左眼矩形区域即为提取的人脸感兴趣区域,所提取的人脸感兴趣区域为拟合人脸边缘的椭圆形感兴趣区域;
第二步,提取人脸图像的光流梯度幅值特征:
对上述第一步所提取的人脸感兴趣区域中的人脸图像提取光流梯度幅值特征,步骤如下,
第(2.1)步,用FlowNet2网络提取视频序列中人脸图像帧间光流场:
首先构建FlowNet2网络的三层堆叠网络,第一层使用FlowNetC网络,第二层和第三层均使用FlowNetS网络,再使用融合网络融合三层堆叠网络结果与根据FlowNetS网络改进的FlowNetSD网络结果得到人脸图像帧间光流场,
将现有的人脸微表情数据库中的人脸图像样本编制为视频序列,其中每个视频序列表示为{f1,...,ft,...,fs},其中s为每个视频序列中所包含的人脸图像的总帧数,ft为当前视频序列中的第t帧人脸图像,每个视频序列以第一帧人脸图像为参考帧提取光流场,当FlowNet2网络输入为f1与ft时,得到第t帧人脸图像的光流场,将第一步所提取的人脸感兴趣区域与人脸图像的光流场结合,得到每帧人脸图像感兴趣区域中的光流场由水平光流分量H与垂直光流分量V组成,
水平光流分量H如下公式(3)所示,
公式(3)中,Hi,j为人脸图像感兴趣区域中坐标为[i,j]像素的水平光流分量,m为人脸图像感兴趣区域中包含像素的行数,n为人脸图像感兴趣区域中包含像素的列数,
垂直光流分量V如下公式(4)所示,
公式(4)中,Vi,j为人脸图像感兴趣区域中坐标为[i,j]像素的垂直光流分量,
由此完成用FlowNet2网络提取人脸图像感兴趣区域的光流场;
第(2.2)步,提取人脸感兴趣区域的光流梯度幅值特征:
用如下公式(5-1)计算上述第(2.1)步中的人脸图像感兴趣区域中坐标为[i,j]像素的水平光流分量Hi,j在x方向的梯度值H(x)i,j,
用如下公式(6-1)计算上述第(2.1)步中的人脸图像感兴趣区域中坐标为[i,j]像素的水平光流分量Hi,j在y方向的梯度值H(y)i,j,
用如下公式(5-2)计算上述第(2.1)步中的人脸图像感兴趣区域中坐标为[i,j]像素的垂直光流分量Vi,j在x方向的梯度值V(x)i,j,
用如下公式(6-2)计算上述第(2.1)步中的人脸图像感兴趣区域中坐标为[i,j]像素的垂直光流分量Vi,j在y方向的梯度值V(y)i,j,
上述公式(5-1)、(5-2)、(6-1)和(6-2)中,i为像素横坐标,j为像素纵坐标,
进一步用如下公式(7)计算坐标为[i,j]像素的水平光流分量Hi,j的梯度幅值M(H)i,j,
进一步用如下公式(8)计算人脸图像感兴趣区域中坐标为[i,j]像素的垂直光流分量Vi,j的梯度幅值M(V)i,j,
根据水平光流分量Hi,j的梯度幅值M(H)i,j与垂直光流分量Vi,j的梯度幅值M(V)i,j,通过如下公式(9)计算人脸图像感兴趣区域中坐标为[i,j]像素的光流梯度幅值Mi,j,
根据光流梯度幅值Mi,j计算出第t帧人脸图像感兴趣区域的光流梯度幅值直方图Bt,如下公式(10)所示,
Bt={b1,b2,...,br,...,bc} (10),
公式(10)中,br为第r个组的频数,c为光流梯度幅值直方图中包含的组数;
根据如下公式(11)计算一帧人脸图像感兴趣区域的光流梯度幅值直方图中每组的频数,
br=br+1,当Mi,j∈[minr,maxr] (11),
公式(11)中,br为第r个组的频数,minr为第r个组的左边界值,maxr为第r个组的右边界值;
将第t帧人脸图像感兴趣区域的光流梯度幅值直方图Bt作为第t帧人脸图像的人脸图像特征feat,则每个视频序列的光流梯度幅值特征为如下公式(12)所示,
fea=[fea1,…,feat,…,feas] (12),
由此完成提取人脸图像的光流梯度幅值特征;
第三步,光流梯度幅值特征距离分析:
第(3.1)步,计算及处理特征距离:
A.计算特征距离:
根据上述第(2.2)步中求得的每个视频序列的光流梯度幅值特征fea=[fea1,…,feat,…,feas],每个视频序列的特征距离向量表示为diff=[diff1,…,difft,…,diffs],
特征距离由以下公式(13)计算,
difft(v)=E(feat,feat+N/2+v),v=1,2,3,4,5 (13),
公式(13)中,N为由视频序列帧率与人脸微表情持续时间计算的人脸微表情序列最大帧数,difft(v)为第t帧人脸图像与第t+N/2+v帧人脸图像之间的特征距离值,feat+N/2+v为第t+N/2+v帧的人脸图像特征,v是特指第t+N/2帧后的1-5帧人脸图像,
第t帧人脸图像与第t+N/2+v帧人脸图像之间的特征距离计算如公式(14)所示,
公式(14)中,D为特征向量的维数,feat(r)表示第t帧人脸图像的光流梯度幅值直方图的第r组的频数,feat+N/2+v(r)为第t+N/2+v帧人脸图像的光流梯度幅值直方图的第r组的频数,
根据上述公式(14)求得的第t帧人脸图像与t+N/2+v帧人脸图像之间的特征距离,进行第t帧人脸图像的特征距离值计算,操作方法是,使用第t帧人脸图像与第t+N/2帧人脸图像周围五帧人脸图像的特征距离平均值来代替第t帧人脸图像与第t+N/2帧人脸图像之间的特征距离,如公式(15)所示,
公式(15)中,difft为最终求得的视频序列中第t帧人脸图像的特征距离平均值,
B.处理特征距离:
依据上述A中的每个视频序列的特征距离向量diff=[diff1,…,difft,…,diffs],绘制每个视频序列的特征距离曲线,将所得每个视频序列的特征距离曲线进行高斯平滑,高斯平滑后,得到新的每个视频序列的特征距离向量如下公式(16)所示,
diffnew=[diff1’,…,difft’,…,diffs’] (16),
公式(16)中,diffnew为平滑后的每个视频序列的特征距离向量,
通过以下公式(17)计算特征距离筛选阈值T,
T=mean(diffnew)+ρ×(max(diffnew)-mean(diffnew)),ρ=0.1,0.2,...,1 (17),
公式(17)中,mean(diffnew)为特征距离向量的平均值,max(diffnew)为特征距离向量的最大值,ρ为阈值调节参数,
当difft'低于特征距离筛选阈值T时,则表示第t帧人脸图像不包含在人脸微表情片段内,则将其预测标签设置为0,否则设置为1,由此完成计算及处理特征距离,得到初步人脸图像预测标签label如下公式(18)所示,
label=[label1,label2,...,labelt,...,labels] (18),
公式(18)中,labelt为第t帧人脸图像的初步预测标签;
第(3.2)步,噪声消除:
对上述第(3.1)步得到的初步人脸图像预测标签label,进行消除单帧噪声及持续时间过滤的后续处理,具体操作如下:
A.消除单帧噪声处理:
消除单帧噪声处理是指将在连续预测标签为1的人脸图像帧中存在的单帧预测标签为0的人脸图像帧的单帧预测标签修改为1,和将在连续预测标签为0的人脸图像帧中存在的单帧预测标签为1的人脸图像帧的单帧预测标签修改为0,消除单帧噪声处理的公式(19)如下所示,
labelt'为消除单帧噪声处理后视频序列中第t帧人脸图像的预测标签,labelt-1为视频序列中第t-1帧人脸图像的初步预测标签,labelt+1为视频序列中第t+1帧人脸图像的初步预测标签,
由此得到经过消除单帧噪声处理后的人脸图像预测标签label',如下公式(20)所示,
label'=[label1',label2',...,labelt',...,labels'] (20),
B.持续时间过滤处理:
对上述消除单帧噪声处理后得到的人脸图像预测标签label'进行人脸微表情持续时间过滤处理,根据帧率计算人脸微表情持续帧数,将得到的结果中持续时间在1/25秒~1/3秒的范围外的预测人脸微表情序列滤除,即完成持续时间过滤处理,持续时间过滤处理的公式(21)如下所示,
公式(21)中,labelt”为视频序列中第t帧人脸图像的最终预测标签,labelvideo(d)=[labela',labela+1',...,labelb']为视频序列中第d段经过消除单帧噪声处理后的连续的预测标签为1的人脸图像视频序列帧,其中a,b分别为第d段连续预测标签为1的视频序列的起始位置与结束位置,
经过上述第(3.1)步的计算及处理特征距离和第(3.2)步的噪声消除后处理过程,得到视频序列中人脸图像的最终预测标签结果label”如下公式(22)所示,
label”=[label1”,label2”,...,labelt”,...,labels”] (22),
第四步:基于光流梯度幅值特征的人脸微表情检测:
在上述第三步光流梯度幅值特征距离分析中获得人脸图像最终预测结果后,需要将预测标签与实际标签进行对比得到量化结果,考虑存在误差的情况,将视频序列中实际标签为人脸微表情的视频序列帧范围设置为[onset-N/4,offset+N/4],其中onset与offset分别为实际标签中标记的人脸微表情片段的起始帧与结束帧,将每个视频序列在此范围内的视频序列帧标记为正,其他视频序列帧标记为负,再将上述第三步中获得的人脸图像预测标签与实际标签对比,并计算出以下各项评价指标,即用公式(23)计算出预测标签为正的正样本占所有实际为正样本的比例TPR,即召回率REC,用公式(24)计算出预测标签为正的负样本占所有实际为负样本的比例FPR,用公式(25)计算出预测标签为正的正样本占所有预测标签为正的样本的比例PRE,
用公式(26)计算出REC和PRE的调和均值F1,
公式(23)-(26)中,TP为当预测标签为正时,实际标签也为正的视频序列帧数量,FP为当预测标签为正时,实际标签为负的视频序列帧数量,TN为当预测标签为负时,实际标签也为负的视频序列帧数量,FN为当预测标签为负时,实际标签为正的视频序列帧数量;
上述各项评价指标计算完成后,至此全部完成了基于光流梯度幅值特征的人脸微表情检测;
上述公式中的s均为每个视频序列中所包含的人脸图像的总帧数;上述公式中的m均为人脸图像感兴趣区域中包含像素的行数;上述公式中的n均为人脸图像感兴趣区域中包含像素的列数;上述公式中的N均为由视频序列帧率与人脸微表情持续时间计算的人脸微表情序列最大帧数;上述公式中的difft(v)均为第t帧人脸图像与第t+N/2+v帧人脸图像之间的特征距离值;上述公式中的labelt”均为视频序列中第t帧人脸图像的最终预测标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911234416.9/1.html,转载请声明来源钻瓜专利网。