[发明专利]一种基于卷积神经网络的眼球移动预测方案在审
申请号: | 201710449650.8 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107633196A | 公开(公告)日: | 2018-01-26 |
发明(设计)人: | 何兴高;姜伟卓;唐晨 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 眼球 移动 预测 方案 | ||
技术领域
本发明属于卷积神经网络中图像处理领域,应用于眼球追踪的方案,具体地 讲,是一种通过卷积神经网络识别人脸中的关键点,然后通过关键点相对位置进 行移动预测的方法。
背景技术
卷积神经网络(CNN)是一种常见的深度学习架构,受生物自然视觉认知机 制启发而来。1959年,Hubel&Wiesel发现,动物视觉皮层细胞负责检测光学 信号。受此启发,1980年Kunihiko Fukushima提出了CNN的前身—— neocognitron。
20世纪90年代,LeCun et al.[3]等人发表论文,确立了CNN的现代结 构,后来又对其进行完善。他们设计了一种多层的人工神经网络,取名叫做 LeNet-5,可以对手写数字做分类。和其他神经网络一样,LeNet-5也能使用 backpropagation算法训练。
CNN能够得出原始图像的有效表征,这使得CNN能够直接从原始像素中, 经过极少的预处理,识别视觉上面的规律。然而,由于当时缺乏大规模训练数据, 计算机的计算能力也跟不上,LeNet-5对于复杂问题的处理结果并不理想。
2006年起,人们设计了很多方法,想要克服难以训练深度CNN的困难。其 中,最著名的是Krizhevsky et al.提出了一个经典的CNN结构,并在图像识别 任务上取得了重大突破。其方法的整体框架叫做AlexNet,与LeNet-5类似, 但要更加深一些。
AlexNet取得成功后,研究人员又提出了其他的完善方法,其中最著名的要 数ZFNet[7],VGGNet[8],GoogleNet[9]和ResNet[10]这四种。从结构看, CNN发展的一个方向就是层数变得更多,ILSVRC 2015冠军ResNet是 AlexNet的20多倍,是VGGNet的8倍多。通过增加深度,网络便能够利用 增加的非线性得出目标函数的近似结构,同时得出更好的特性表征。但是,这样 做同时也增加了网络的整体复杂程度,使网络变得难以优化,很容易过拟合。
由于计算机技术和信息技术的不断发展,图像识别技术的使用领域越来越 广泛:如指纹的识别、虹膜的识别、手写汉字的识别、交通标志的识别、手势的 识别、人脸的识别、机器人视觉等等,并且随着实践活动社会化的需要,需要分 类识别的事物种类越来越丰富,而且被识别对象的内容也越来越复杂。例如,在 交通管理系统中,通过使用车牌的自动识别来记录车辆的违章行为;从医学图像 中根据细胞的形状和颜色等分析是否发生了病变;通过植物的颜色和形态长势 判断何时需要浇水、施肥;通过气象观测的数据或利用卫星照片来进行天气预报 等等。总而言之,图像识别技术不仅在农业、工业、医学和高科技产业等各个领 域发挥着非常重要的作用,并且已经越来越多地渗透到了我们的日常生活中。好 的识别技术是关键所在,因此,如何快速的准确的识别意义重大,如上面讲到的 人脸识别已经直接涉及到了安全性。
卷积神经网络在图像中的应用绝大多数都是用于识别与分类,而对于眼球追 踪的研究中,在虚拟现实(VR)中,如何将眼球追踪与渲染技术的结合,成为了热 门问题,本发明解决的就是在图像中更加效率的快速的对眼球的预测追踪。
发明内容
1.本发明的目的在于通过卷积神经网络进行人脸关键点的识别基础上,对 于关键点的位置数据进行训练,从而达到近似于眼球追踪的效果。首先 是定义网络结构,采用3个卷积层,第一个卷积层用3*3的卷积核,后 面两个用2*2的卷积核。每个卷积层后面都跟max_pool池化层,之后 再跟3个全连接层(两个隐层一个输出层)。每个卷积层的feature_map 分别用32、64、128。
2.对于卷积计算的参数说明:
Return.tf.nn.cov2d(x,W,strides=[1,1,1,1],padding=’VALID’) 2.1x是输入的样本,在这里就是图像。x的shape=[batch,height, width,channels]。
-batch是输入样本的数量
-height,width是每张图像的高和宽
-channels是输入的通道,比如初始输入的图像是灰度图,那么
channels=1,如果是rgb,那么channels=3。对于第二层卷积层, channels=32。
2.2W表示卷积核的参数,shape的含义是[height,width,in_channels, out_channels]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710449650.8/2.html,转载请声明来源钻瓜专利网。