[发明专利]基于视觉追踪的用户注视点估计和精度评估方法在审
申请号: | 202210432536.5 | 申请日: | 2022-04-23 |
公开(公告)号: | CN114816060A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 闫野;谢良;胡薇;印二威;张敬;张亚坤;罗治国;艾勇保 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06V40/18;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视觉 追踪 用户 注视 点估计 精度 评估 方法 | ||
1.一种基于视觉追踪的用户注视点估计方法,其特征在于,其具体包括:
用户佩戴头戴式眼动交互设备,利用注视点提取模块获取用户的注视点坐标,通过残差估计模块计算出用户的眼动偏移量与注视点坐标的残差,再将得到的残差送入偏移量自适应模块对注视点坐标进行更新,得到最终的用户注视点估计值。
2.如权利要求1所述的基于视觉追踪的用户注视点估计方法,其特征在于,其具体包括:
所述的注视点提取模块,其通过多个深度卷积神经层叠加多个扩张卷积层构成的深度学习人工神经网络来实现,将头戴式眼动交互设备采集的用户双眼图片作为该模块的输入,该模块的输出为提取到的用户的注视点坐标值;
所述的利用注视点提取模块获取用户的注视点坐标,首先构建样本数据集,然后搭建深度学习人工神经网络,对该深度学习人工神经网络进行训练和测试,利用训练完成的深度学习人工神经网络作为注视点提取模型,使用注视点提取模型获取用户的注视点坐标。
3.如权利要求2所述的基于视觉追踪的用户注视点估计方法,其特征在于,其具体包括:
所述的样本数据集的构建,需要若干用户佩戴头戴式眼动交互设备,用户注视该设备的显示界面中不断移动的目标锚点,该目标锚点通过蛇形遍历的方式依次移动至显示界面的每行每列像素点位置处,目标锚点在移动过程中变换三种以上不同的移动速度,头戴式眼动交互设备采集用户注视不断移动的目标锚点的眼部图像,该目标锚点完成一次蛇形遍历后,即完成一轮样本数据提取;在每一轮样本数据提取过程中,头戴式眼动交互设备上搭载的近眼高速摄像头在目标锚点蛇形遍历到显示界面上的每个像素点位置上时,保存该时刻的用户双眼图像以及其注视的目标锚点的位置坐标值,用户双眼图像和其注视的目标锚点的位置坐标值作为该样本数据集的样本和标签,从而完成对该样本数据集的构建。
4.如权利要求2所述的基于视觉追踪的用户注视点估计方法,其特征在于,其具体包括:
所述的搭建深度学习人工神经网络,首先采用深度卷积神经层提取用户双眼图片的左右眼图的特征,深度卷积神经层中的每个卷积层的卷积核尺寸均为3×3,卷积步长均为2;在深度卷积神经层后叠加三层扩张卷积层,第一层扩张卷积层的卷积核尺寸为3×3,扩张率为(1,2),第二层扩张卷积层的卷积核尺寸为3×3,扩张率为(2,3),第三层扩张卷积层的卷积核尺寸为3×3,扩张率为(4,5),三层扩张卷积层的卷积步长均为1;对扩张卷积层的最终输出进行失活处理,使得该深度学习人工神经网络的参数量得以控制,确保该深度学习人工神经网络推理的实时性,使用ReLU作为激活函数,在激活处理之前对该深度学习人工神经网络的参数进行归一化。
5.如权利要求2所述的基于视觉追踪的用户注视点估计方法,其特征在于,其具体包括:
所述的对所搭建的深度学习人工神经网络进行训练和测试,对样本数据集进行尺寸及像素分布的标准化处理,将样本数据集的用户双眼图片分辨率降低至设置值,将样本数据集的用户双眼图片的所有像素值除以256,使其像素值分布在0至1之间,从而实现像素值的归一化,然后以0.5为均值,0.5为方差,对样本数据集的用户双眼图片的所有像素值数据进行标准化分布处理;使用PyTorch框架将标准化分布处理之后的数据转化成张量数据,作为该深度学习人工神经网络的输入,使用随机梯度下降算法对该网络的参数进行更新,采用Adam函数对该网络的参数进行优化,采用交叉验证法对样本数据集以7:3的数据量比例划分为训练集和测试集,以L1范数损失函数作为该网络的损失函数,对该网络进行训练时,并使用Adam函数作为优化器;通过对所搭建的深度学习人工神经网络进行迭代训练,取训练结果最佳的一组网络参数,作为对该深度学习人工神经网络训练得到的最终参数,从而完成对该深度学习人工神经网络的训练。
6.如权利要求1所述的基于视觉追踪的用户注视点估计方法,其特征在于,其具体包括:
所述的残差估计模块,用户注视偏移量提取标识后,该模块实现对用户的眼动偏移量的提取,并使用一阶差分函数进行用户的眼动偏移量与注视点坐标的残差的计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院,未经中国人民解放军军事科学院国防科技创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210432536.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于视觉图像信息的眼动交互系统
- 下一篇:一种家用电梯静音门锁装置