[发明专利]一种基于卷积神经网络的眼球移动预测方案在审

专利信息
申请号: 201710449650.8 申请日: 2017-06-14
公开(公告)号: CN107633196A 公开(公告)日: 2018-01-26
发明(设计)人: 何兴高;姜伟卓;唐晨 申请(专利权)人: 电子科技大学
主分类号: G06K9/00 分类号: G06K9/00;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 610054 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 卷积 神经网络 眼球 移动 预测 方案
【说明书】:

技术领域

发明属于卷积神经网络中图像处理领域,应用于眼球追踪的方案,具体地 讲,是一种通过卷积神经网络识别人脸中的关键点,然后通过关键点相对位置进 行移动预测的方法。

背景技术

卷积神经网络(CNN)是一种常见的深度学习架构,受生物自然视觉认知机 制启发而来。1959年,Hubel&Wiesel发现,动物视觉皮层细胞负责检测光学 信号。受此启发,1980年Kunihiko Fukushima提出了CNN的前身—— neocognitron。

20世纪90年代,LeCun et al.[3]等人发表论文,确立了CNN的现代结 构,后来又对其进行完善。他们设计了一种多层的人工神经网络,取名叫做 LeNet-5,可以对手写数字做分类。和其他神经网络一样,LeNet-5也能使用 backpropagation算法训练。

CNN能够得出原始图像的有效表征,这使得CNN能够直接从原始像素中, 经过极少的预处理,识别视觉上面的规律。然而,由于当时缺乏大规模训练数据, 计算机的计算能力也跟不上,LeNet-5对于复杂问题的处理结果并不理想。

2006年起,人们设计了很多方法,想要克服难以训练深度CNN的困难。其 中,最著名的是Krizhevsky et al.提出了一个经典的CNN结构,并在图像识别 任务上取得了重大突破。其方法的整体框架叫做AlexNet,与LeNet-5类似, 但要更加深一些。

AlexNet取得成功后,研究人员又提出了其他的完善方法,其中最著名的要 数ZFNet[7],VGGNet[8],GoogleNet[9]和ResNet[10]这四种。从结构看, CNN发展的一个方向就是层数变得更多,ILSVRC 2015冠军ResNet是 AlexNet的20多倍,是VGGNet的8倍多。通过增加深度,网络便能够利用 增加的非线性得出目标函数的近似结构,同时得出更好的特性表征。但是,这样 做同时也增加了网络的整体复杂程度,使网络变得难以优化,很容易过拟合。

由于计算机技术和信息技术的不断发展,图像识别技术的使用领域越来越 广泛:如指纹的识别、虹膜的识别、手写汉字的识别、交通标志的识别、手势的 识别、人脸的识别、机器人视觉等等,并且随着实践活动社会化的需要,需要分 类识别的事物种类越来越丰富,而且被识别对象的内容也越来越复杂。例如,在 交通管理系统中,通过使用车牌的自动识别来记录车辆的违章行为;从医学图像 中根据细胞的形状和颜色等分析是否发生了病变;通过植物的颜色和形态长势 判断何时需要浇水、施肥;通过气象观测的数据或利用卫星照片来进行天气预报 等等。总而言之,图像识别技术不仅在农业、工业、医学和高科技产业等各个领 域发挥着非常重要的作用,并且已经越来越多地渗透到了我们的日常生活中。好 的识别技术是关键所在,因此,如何快速的准确的识别意义重大,如上面讲到的 人脸识别已经直接涉及到了安全性。

卷积神经网络在图像中的应用绝大多数都是用于识别与分类,而对于眼球追 踪的研究中,在虚拟现实(VR)中,如何将眼球追踪与渲染技术的结合,成为了热 门问题,本发明解决的就是在图像中更加效率的快速的对眼球的预测追踪。

发明内容

1.本发明的目的在于通过卷积神经网络进行人脸关键点的识别基础上,对 于关键点的位置数据进行训练,从而达到近似于眼球追踪的效果。首先 是定义网络结构,采用3个卷积层,第一个卷积层用3*3的卷积核,后 面两个用2*2的卷积核。每个卷积层后面都跟max_pool池化层,之后 再跟3个全连接层(两个隐层一个输出层)。每个卷积层的feature_map 分别用32、64、128。

2.对于卷积计算的参数说明:

Return.tf.nn.cov2d(x,W,strides=[1,1,1,1],padding=’VALID’) 2.1x是输入的样本,在这里就是图像。x的shape=[batch,height, width,channels]。

-batch是输入样本的数量

-height,width是每张图像的高和宽

-channels是输入的通道,比如初始输入的图像是灰度图,那么

channels=1,如果是rgb,那么channels=3。对于第二层卷积层, channels=32。

2.2W表示卷积核的参数,shape的含义是[height,width,in_channels, out_channels]。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710449650.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top