[发明专利]一种基于卷积神经网络的眼球移动预测方案在审

申请号：	201710449650.8	申请日：	2017-06-14
公开（公告）号：	CN107633196A	公开（公告）日：	2018-01-26
发明（设计）人：	何兴高;姜伟卓;唐晨	申请（专利权）人：	电子科技大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	610054 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于卷积神经网络眼球移动预测方案
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于卷积神经网络中图像处理领域，应用于眼球追踪的方案，具体地讲，是一种通过卷积神经网络识别人脸中的关键点，然后通过关键点相对位置进行移动预测的方法。

背景技术

卷积神经网络(CNN)是一种常见的深度学习架构，受生物自然视觉认知机制启发而来。1959年，Hubel&Wiesel发现，动物视觉皮层细胞负责检测光学信号。受此启发，1980年Kunihiko Fukushima提出了CNN的前身—— neocognitron。

20世纪90年代，LeCun et al.[3]等人发表论文，确立了CNN的现代结构，后来又对其进行完善。他们设计了一种多层的人工神经网络，取名叫做 LeNet-5，可以对手写数字做分类。和其他神经网络一样，LeNet-5也能使用 backpropagation算法训练。

CNN能够得出原始图像的有效表征，这使得CNN能够直接从原始像素中，经过极少的预处理，识别视觉上面的规律。然而，由于当时缺乏大规模训练数据，计算机的计算能力也跟不上，LeNet-5对于复杂问题的处理结果并不理想。

2006年起，人们设计了很多方法，想要克服难以训练深度CNN的困难。其中，最著名的是Krizhevsky et al.提出了一个经典的CNN结构，并在图像识别任务上取得了重大突破。其方法的整体框架叫做AlexNet，与LeNet-5类似，但要更加深一些。

AlexNet取得成功后，研究人员又提出了其他的完善方法，其中最著名的要数ZFNet[7],VGGNet[8],GoogleNet[9]和ResNet[10]这四种。从结构看， CNN发展的一个方向就是层数变得更多，ILSVRC 2015冠军ResNet是 AlexNet的20多倍，是VGGNet的8倍多。通过增加深度，网络便能够利用增加的非线性得出目标函数的近似结构，同时得出更好的特性表征。但是，这样做同时也增加了网络的整体复杂程度，使网络变得难以优化，很容易过拟合。

由于计算机技术和信息技术的不断发展，图像识别技术的使用领域越来越广泛：如指纹的识别、虹膜的识别、手写汉字的识别、交通标志的识别、手势的识别、人脸的识别、机器人视觉等等，并且随着实践活动社会化的需要，需要分类识别的事物种类越来越丰富，而且被识别对象的内容也越来越复杂。例如，在交通管理系统中，通过使用车牌的自动识别来记录车辆的违章行为；从医学图像中根据细胞的形状和颜色等分析是否发生了病变；通过植物的颜色和形态长势判断何时需要浇水、施肥；通过气象观测的数据或利用卫星照片来进行天气预报等等。总而言之，图像识别技术不仅在农业、工业、医学和高科技产业等各个领域发挥着非常重要的作用，并且已经越来越多地渗透到了我们的日常生活中。好的识别技术是关键所在，因此，如何快速的准确的识别意义重大，如上面讲到的人脸识别已经直接涉及到了安全性。

卷积神经网络在图像中的应用绝大多数都是用于识别与分类，而对于眼球追踪的研究中，在虚拟现实(VR)中，如何将眼球追踪与渲染技术的结合，成为了热门问题，本发明解决的就是在图像中更加效率的快速的对眼球的预测追踪。

发明内容

1.本发明的目的在于通过卷积神经网络进行人脸关键点的识别基础上，对于关键点的位置数据进行训练，从而达到近似于眼球追踪的效果。首先是定义网络结构，采用3个卷积层，第一个卷积层用3*3的卷积核，后面两个用2*2的卷积核。每个卷积层后面都跟max_pool池化层，之后再跟3个全连接层(两个隐层一个输出层)。每个卷积层的feature_map 分别用32、64、128。

2.对于卷积计算的参数说明：

Return.tf.nn.cov2d(x,W,strides＝[1,1,1,1],padding＝’VALID’) 2.1x是输入的样本，在这里就是图像。x的shape＝[batch,height, width,channels]。

-batch是输入样本的数量

-height,width是每张图像的高和宽

-channels是输入的通道，比如初始输入的图像是灰度图，那么

channels＝1，如果是rgb，那么channels＝3。对于第二层卷积层， channels＝32。

2.2W表示卷积核的参数，shape的含义是[height,width,in_channels, out_channels]。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710449650.8/2.html，转载请声明来源钻瓜专利网。