[发明专利]一种基于单目摄像头的3D人脸视频生成方法有效
申请号: | 202011419753.8 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112396694B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 陈红倩;常雨乐 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06T7/11;G06V40/16;G06V10/82;G06N3/0464 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100048 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 摄像头 视频 生成 方法 | ||
1.一种基于单目摄像头的3D人脸视频生成方法,其特征在于:
步骤1:使用“三阶级联卷积神经网络”对获取的视频中所包含的人脸区域进行检测和跟踪,并将含有人脸的部分框选出来;
步骤1所述的“三阶级联卷积神经网络”的特征在于:
(1)所述的三阶级联卷积神经网络有三项任务,分别为人脸与非人脸的分类、边界框回归和人脸关键点定位;
(2)关于(1)中所述的人脸与非人脸的分类,使用公式(1)来约束这个二分类问题,使得目标值取得最小值:
其中pi表示该样本是人脸的概率,yidet∈{0,1}表示对应的真实标签;
(3)关于(1)中所述的边界框回归,对于每个候选窗口,使用公式(2)来约束候选窗口与其最近的真实标签值之间的偏移,使得最终的偏移量取得最小值:
其中是从卷积神经网络中获得的第i个回归目标,是第i个回归目标对应的边界框的信息,每个边界框的信息包括该边界的左上角x,y坐标值、高度以及宽度;
(4)关于(1)中所述的人脸关键点定位,用公式(3)来表示:
其中是网络预测的人脸关键点的坐标组成的向量,该向量中包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标,是对应的人脸关键点的真实坐标;
(5)所述的三阶级联卷积神经网络包括P-Net阶段、R-Net阶段和O-Net阶段;
(6)关于(5)中所述的P-Net阶段,主要通过一个卷积神经网络获取人脸窗口以及人脸边界框回归向量,并基于人脸边界框向量对候选窗口进行校正,之后采取“非极大值抑制”合并高重叠率的候选窗口;
(7)关于(5)中所述的R-Net阶段,是以(6)中P-Net阶段输出的候选窗口作为输入,通过一个更强大的卷积神经网络进一步筛选大量错误的候选窗口,否决大量非人脸窗口而进一步优化人脸窗口,再利用人脸边界框回归向量对候选窗口做校正,并执行“非极大值抑制”去掉效果不佳的人脸候选框;
(8)关于(5)中所述的O-Net阶段,与(7)中R-Net阶段的功能相似,但该阶段使用更多的监督来识别人脸区域,进一步优化结果,最终并输出人脸框的位置;
步骤2:将步骤1中框选的含有人脸的部分区域裁剪出来,并处理为帧图像序列,即一系列的二维图像;
步骤3:基于一个自动编码器,对步骤2得到的帧图像序列进行重建,最终得到重建之后的规范视角下的2D人脸标准图像,具体步骤为:
步骤3.1:对于输入的每一幅帧图像,将其分解为反照率(albedo)、深度(depth)、光照(1ight)和视点(viewpoint)四个因子,这四个因子依次命名为a、d、l、w因子;
步骤3.2:对于对称的图片,使用步骤3.1中的a、d、l、w四个因子,通过光照函数,在w=0的情况下,利用a、d、l这三个因子生成一个规范视角下的标准图像J,使用公式(4)表示为:
其中Λ表示光照函数,a表示反照率,d表示深度,l表示光照,w表示标准图像视点和输入图像视点之间的变换;
步骤3.4:对于可能对称的图片,首先对图片的深度和反照率进行水平翻转,其具体的操作用公式(5)表示:
其中d表示深度,d′表示水平翻转后的深度,a表示反照率,a′表示水平翻转后的反照率;
步骤3.5:对于步骤3.1中的l、步骤3.4中的d′、步骤3.4中的a′三个因子,继续使用光照函数,在w=0的情况下,利用l、d′、a′这三个因子生成一个规范视角下的标准图像J′,使用公式(6)表示为:
其中Λ表示光照函数,a′表示水平翻转后的反照率,d′表示水平翻转后的深度,l表示光照,w表示标准图像视点和输入图像视点之间的变化;
步骤4:使用“神经网格渲染器”得到重建之后的3D人脸图像,具体步骤为:
步骤4.1:使用“神经网格渲染器”对步骤3.1中的d因子进行扭曲,获得从输入视点所观察到的深度图
步骤4.2:对于步骤4.1得到的深度图通过欧式空间变换(R,T)将标准图像变换到实际图像;通过扭曲函数可以找到实际图像的观察视点到标准图像的视点的扭曲场,将标准图像像素坐标(u,v)与实际图像像素坐标(u′,v′)关联,扭曲函数ηd,w:(u,v)→(u′,v′)使用公式(7)表示为:
p′∝K(duv*RK-1p+T) (7)
其中p′=(u′,v′,1),(u′,v′)即实际图像像素坐标,K为内参数矩阵,duv为深度图的像素坐标,p=(u,v,1)为图像映射投影的像素点,(R,T)表示视点w的欧式空间变换,R为旋转矩阵,T表示位移矩阵;
步骤4.3:通过一个重投影函数,将得到的扭曲应用到规范视角的标准图像,并进行双重线性采样,获得实际的3D图像,重投影函数用公式(8)表示为:
其中,∏表示重投影函数,J和J′表示规范视角下的标准图像,分别为步骤3.2中的结果J和步骤3.5中的结果J′,d表示深度,d′表示水平翻转之后的深度,w表示标准图像视点和输入图像视点之间的变化;
步骤5:对步骤4.3得到的3D人脸图像进行连续的输出,得到最终的3D人脸视频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011419753.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于无线通信的智能眼镜
- 下一篇:一种旋转门帽头加工中心