[发明专利]一种基于多任务学习的面部活动单元检测方法有效
申请号: | 202010489364.6 | 申请日: | 2020-06-02 |
公开(公告)号: | CN111783543B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 支瑞聪;周才霞 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/82;G06V10/764;G06V10/766;G06N3/0464;G06N3/08 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;邓琳 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 面部 活动 单元 检测 方法 | ||
1.一种基于多任务学习的面部活动单元检测方法,其特征在于,包括以下步骤:
辅助任务学习:将全局平均池化层之前的AlexNet网络作为共享结构提取共享的面部全局特征,并将提取的共享的面部全局特征分别送入与任务相关的独立网络结构中得到辅助任务的输出;所述辅助任务的输出包括标志点检测、性别识别、头部姿势估计和表情识别的输出;
主任务学习:将面部裁剪为上半脸和下半脸,分别输入修改后的Resnet50网络中学习与活动单元相关的特征,将辅助任务学习步骤提取的共享的面部全局特征融入并加入注意力机制;
特征组合:将辅助任务的输出组合起来作为关系信息来修正活动单元相关特征的输出。
2.根据权利要求1所述的面部活动单元检测方法,其特征在于,所述辅助任务学习的步骤具体包括:
使用全局平均池化层之前的AlexNet网络作为共享网络结构提取共享的面部全局特征,输入224×224×3的裁剪后的人脸;其中224×224×3分别代表长、宽、通道数,全局平均池化层之前的AlexNet网络具有五个卷积层和三个池化层;
将提取的共享的面部全局特征记为X_features,将X_features输入与任务相关的特定的网络结构,分别得到标志点检测、性别识别、头部姿势估计和表情识别辅助任务的输出。
3.根据权利要求2所述的面部活动单元检测方法,其特征在于,所述主任务学习的步骤具体包括:
将面部根据预测的标志点位置裁剪为上半脸和下半脸,上半脸和下半脸的尺寸都是112×112×3,上半脸以两眼之间的中心点为中心裁剪,下半脸以上唇的中心点为中心裁剪;
全局平均池化层之前的Resnet50网络包含一个卷积层和四个阶段,每个阶段由identity块和conv块组成;将卷积层以及每个阶段的输出与X_features结合,其中,卷积层和第一阶段的输出尺寸为56×56,第二阶段和第三阶段的输出尺寸分别为28×28和14×14,最后一个阶段的输出尺寸为7×7;
从全局平均池化层之前的Resnet50网络提取特征图,其中,对卷积层和前三个阶段的特征图进行下采样处理,以保证进行连接的特征图大小相同,最终得到的特征图记为AU_features。
4.根据权利要求3所述的面部活动单元检测方法,其特征在于,所述主任务学习的步骤还包括:
从全局平均池化层之前的Resnet50网络中提取出7×7×64特征图AU_features后,以每个活动单元中心点为基准为每个活动单元生成7×7×64的注意力特征图,具体包括:
为每个活动单元设计两个7×7矩阵,矩阵的中心为活动单元中心点;
根据矩阵上各个点与中心点之间的曼哈顿距离d,计算矩阵中各个点的值v,如果点在图片范围内,则值v等于1-0.095×d,否则为0;
将每个矩阵重复32次并通过通道连接以形成7×7×64的注意力特征图;
将从全局平均池化层之前的Restnet50网络中提取的特征图与每个活动单元对应的注意力特征图分别相乘,以增强与每个活动单元相关的特征,最终得到的特征图记为AU_attention_features。
5.根据权利要求3所述的面部活动单元检测方法,其特征在于,所述特征组合的步骤具体包括:
将活动单元相关特征输入全连接层得到尺寸为64的活动单元线性特征;
使用全连接层操作活动单元线性特征得到尺寸为1的活动单元初步输出;
将除每个活动单元检测任务外的所有任务的输出合并成为任务信息,任务信息的尺寸为120;
将任务信息通过全连接层和sigmoid函数提炼,提炼后的信息尺寸为64;
将提炼后的任务信息和各个特定活动单元线性特征按元素相加来获得组合特征;
将组合特征输入全连接层和sigmoid函数获得最终输出的面部活动单元特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010489364.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种交互式NL2SQL模型的可视理解与诊断方法
- 下一篇:无线通信方法和设备