[发明专利]一种基于深度回归网络的视线估计方法有效
申请号: | 201611036387.1 | 申请日: | 2016-11-23 |
公开(公告)号: | CN106599994B | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 潘力立 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06K9/46 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 张杨 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本专利提出了一种基于深度回归网络的视线估计方法,属于计算机视觉和机器学习领域。该方法的主要思想是通过深度回归网络建立输入图像特征和视线之间的映射关系。首先,提取眼部图像区域的梯度方向直方图特征;接着,建立5层的深度回归模型,拟合输入图像特征和输出视线方向之间的映射关系;之后,利用梯度下降法优化深度回归模型的参数;最后,对于待估计眼部图像,利用学习好的深度模型估计视线方向。 | ||
搜索关键词: | 一种 基于 深度 回归 网络 视线 估计 方法 | ||
【主权项】:
1.一种基于深度回归网络的视线估计方法,包括以下步骤:步骤1:采集N幅包含不同视线的眼部图像,并记录采集每幅图像时对应的视线方向yn的第一维表示水平方向,第二维表示垂直方向,下标n表示第n幅图像对应的视线方向;步骤2:将步骤1中采集的眼部图像归一化处理,并提取梯度方向直方图特征,获得N幅图像的梯度方向直方图特征[x1,...,xN];步骤3:将N幅图像对应视线方向的范围归一化到[0,1]区间,获得标定视线方向为[y1,...,yN],具体做法为:其中表示第n幅图像的标定视线第j维的分量,ynj表示该维归一化后的数值,其中为表示方便将yni表示为yn;步骤4:设计深度回归模型对应的映射函数,对输入特征为其中s1表示特征的维数,对输入特征进行逐层映射,表示第l+1层的第i个单元的输入,表示连接深度神经网络第l层的所有sl个单元和第l+1层的第i个单元之间的参数;具体来讲,表示连接第l层的第j个单元和第l+1层第i个单元之间的参数,表示第l+1层的第i个单元的S形函数的输出,为与第l+1层的隐单元i相关的偏差项,Sl+1为第l+1层隐单元的数目;第l+1层的第i个单元是否被激活,由S形函数的输出决定,即:设计的深度回归模型的输出层共有2个单元,用符号表示,用以估计视线方向的水平角度和垂直角度,上标(L)表示输出层的标号;整个深度回归模型用函数hw,b(xn)表示当输入为xn时的视线估计值,即:σ(·)表示S形函数;步骤5:将步骤2归一化的梯度方向直方图特征[x1,...,xN]作为深度回归模型的输入,对应的标定视线方向为[y1,…,yN],建立深度回归模型的目标函数:其中L为深度回归网络的层数,λ第二项约束项的强度;步骤6:为了表示当输入为xn时,任意一层l的任意单元i对误差平方和贡献的大小,定义一个误差项对于第L层作为输出层时,每一个单元i对应的误差项为:表示的导数,表示当输入为xn时第L层第i个节点的输入,利用后向传播算法,计算l=2,3,L‑1层时每一个节点j对应的误差项最后得到下面目标函数J(w,b)关于参数和的偏导数其中和表示当输入为xn时对应的第l层的第j个单元的输出和第l+1层第i个单元对应的误差项;最后得到目标函数J(w,b)关于参数向量w,b的梯度和步骤7:为了求得最佳的深度神经网络的参数w和b,我们先初始化参数,参数初始化值是使得输入信号的重构误差最小,得到初始值w[0]和b[0]之后,再利用梯度下降法进行优化;即:其中上标[t]和[t+1]表示第t次和t+1次迭代;当w和b满足收敛条件时停止迭代,α表示梯度下降的步长;步骤8:对于新的眼部图像,检测到眼部区域并提取梯度方向直方图特征,数值归一化之后送入训练好的深度网络中,得到对应的视线方向估计值,并将数值范围还原到‑90°到+90°。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611036387.1/,转载请声明来源钻瓜专利网。