[发明专利]基于深度表观特征和自适应聚合网络的多人脸跟踪方法有效
申请号: | 201910106309.1 | 申请日: | 2019-02-02 |
公开(公告)号: | CN109829436B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 柯逍;郑毅腾;朱敏琛 | 申请(专利权)人: | 福州大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G06N3/04;G06N3/08;G06T7/11;G06T7/246;G06T7/50 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市闽*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 表观 特征 自适应 聚合 网络 多人脸 跟踪 方法 | ||
1.一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法,其特征在于:包括以下步骤:
步骤S1:采用人脸识别数据集训练自适应聚合网络;
步骤S2:根据初始的输入视频帧,采用卷积神经网络获取人脸的位置,初始化待跟踪的人脸目标,提取人脸特征并保存;
步骤S3:采用卡尔曼滤波器预测每个人脸目标在下一帧的位置,并在下一帧中再次定位人脸所在位置,并对检测出的人脸提取特征;
步骤S4:使用步骤S1训练好的自适应聚合网络,对每个跟踪的人脸目标跟踪轨迹中的人脸特征集合进行聚合,动态地生成一个融合多帧信息的人脸深度表观特征,结合预测的位置及融合后的特征,与当前帧中通过检测得到的人脸位置及其特征,进行相似度计算与匹配,更新跟踪状态;
步骤S1具体包括以下步骤:
步骤S11:收集公开的人脸识别数据集,获得相关人物的图片及姓名;
步骤S12:采用融合策略对多个数据集中共有人物的图片进行整合,使用预训练的MTCNN模型进行人脸检测和人脸关键点定位,并应用相似变换进行人脸对齐,同时将训练集中的所有图像都减去其每个通道在训练集上的均值,完成数据预处理,训练自适应聚合网络;
步骤S2具体包括以下步骤:
步骤S21:令i表示输入视频的第i帧的编号,初始时i=1,使用预训练的MTCNN模型同时检测所有人脸的位置Di及其对应的面部关键点的位置Ci,其中j为第j个检测到人脸的编号,Ji为第 i 帧 检测到的人脸数量,其中表示第i帧中第j个人脸的位置,x,y,w,h分别表示人脸区域的左上角坐标及其宽度和高度,其中表示第i帧中第j个人脸的关键点,c1,c2,c3,c4,c5分别表示人脸的左眼,右眼,鼻子,左嘴角,右嘴角的坐标;
步骤S22:对于每一个人脸的位置及其面部关键点坐标为其分配一个唯一的身份IDk,k=1,2,...,Ki,其中k表示第k个跟踪目标的编号,Ki表示在第i帧时跟踪目标的人数,并初始化其对应的跟踪器Tk={IDk,Pk,Lk,Ek,Ak},其中IDk表示第k个跟踪目标的唯一身份标识,Pk表示分配给第k个目标的人脸位置坐标,Lk表示第k个目标的面部关键点坐标,Ek表示第k个目标的人脸特征列表,Ak表示第k个目标的生命周期,初始化Ki=Ji,Ak=1;
步骤S23:对于Tk中的每一个人脸的位置Pk,对图像进行裁剪,得到对应的人脸图像,使用对应的面部关键点位置Lk,应用相似变换进行人脸对齐,得到对齐后的人脸图像;
步骤S24:将对齐后的人脸图像输入自适应聚合网络,得到对应的人脸深度表观特征,添加到跟踪器中Tk的特征列表Ek;
步骤S3具体包括以下步骤:
步骤S31:将每个跟踪的人脸目标状态表示为以下形式:
式中,m表示跟踪的人脸目标状态,u和v表示跟踪人脸区域的中心坐标,s为人脸框的面积,r为人脸框的宽高比,分别表示(u,v,s,r)在图像坐标空间中的速度;
步骤S32:将每个跟踪器Tk中的人脸位置Pk=(x,y,w,h)转化为的形式,其中表示第i帧中第k个跟踪目标的人脸位置转化后的形式;
步骤S33:将作为第i帧第k个跟踪目标的直接观测结果,其由人脸检测而来,采用基于线性匀速运动模型的卡尔曼滤波器对第k个跟踪目标在第i+1帧中的状态进行预测;
步骤S34:在第i+1帧中,采用MTCNN模型再次进行人脸检测与面部关键点定位,得到人脸的位置Di+1和面部关键点Ci+1;
步骤S35:对每一个人脸位置基于其面部关键点应用相似变换完成人脸对齐,并输入自适应聚合网络提取特征,得到特征集合Fi+1,其中Fi+1表示第i+1帧中所有人脸的特征集合;
步骤S4具体包括以下步骤:
步骤S41:对于每个人脸的跟踪器Tk,将其历史运动轨迹中所有特征的集合Ek输入自适应聚合网络,得到聚合特征fk,其中fk表示将第k个跟踪目标历史运动轨迹中所有特征向量进行融合之后输出的一个聚合特征;
步骤S42:将第i帧中由卡尔曼滤波器预测的第k个目标在下一帧的位置状态转化为的形式;
步骤S43:结合和目标k聚合后的特征fk,以及第i+1帧中的由人脸检测得到的人脸位置Di+1及其特征集合Fi+1,计算如下关联矩阵:
G=[gjk],j=1,2,...,Ji+1,k=1,2,...,Ki;
式中,Ji+1为第i+1帧中检测到的人脸数量,Ki为第i帧中的跟踪目标数量,为第i+1帧中第j个人脸检测框与第i帧中由卡尔曼滤波器预测的第k个目标在第i+1帧中的位置状态之间的重合程度,为第i+1帧中第j个人脸特征与第i帧中第k个目标聚合特征fk之间的余弦相似度,λ为超参数,用于平衡两个度量的权重;
步骤S44:将关联矩阵G作为代价矩阵,使用匈牙利算法计算得到匹配的结果,将第i+1帧中的人脸检测框关联到第k个跟踪目标;
步骤S45:将匹配结果中的下标对应关联矩阵G中的项,并过滤所有小于Tsimilarity的项gjk,将其从匹配结果中删除,其中Tsimilarity为设定的超参数,表示匹配成功的最低相似度阈值;
步骤S46:在匹配结果中,若检测框与第k个跟踪目标关联成功,则更新对应跟踪器Tk中的位置状态人脸关键点位置生命周期Ak=Ak+1,以及将对应的人脸特征添加到特征列表Ek,若检测框关联失败,则创建新的跟踪器;
步骤S47:对每一个跟踪器Tk,若其生命周期Ak>Tage,则删除该跟踪器,其中Tage为设定的超参数,表示一个跟踪目标可以存活的最长时间。
2.根据权利要求1所述的一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法,其特征在于:所述自适应聚合网络由深度特征抽取模块和自适应特征聚合模块串联而成,其接受同一个人的一张或多张人脸图像作为输入,输出聚合后的特征,其中深度特征抽取模块采用34层的ResNet作为骨干网络,自适应特征聚合模块含有一个特征聚合层;令B表示输入的样本数量,{zt}表示深度特征抽取模块的输出特征集合,其中t=1,2,...,B表示输入样本编号,特征聚合层的计算方式为:
a=∑totzt;
式中,q表示特征向量zt各个分量的权重,是可以学习的参数,通过将人脸识别信号作为监督信号,利用反向传播和梯度下降方法进行学习,vt为sigmoid函数的输出,代表每个特征向量zt的分数,范围在0和1之间,ot为L1归一化的输出,使得∑tot=1,a为B个特征向量聚合后的一个特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910106309.1/1.html,转载请声明来源钻瓜专利网。