[发明专利]一种多模态三维视觉注意力预测方法及其应用在审
申请号: | 202111465974.3 | 申请日: | 2021-12-03 |
公开(公告)号: | CN114170537A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 厉向东;吴玥;单逸飞;阴凯琳;姚佳怡;沈思扬 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V20/20 | 分类号: | G06V20/20;G06V40/18;G06F3/01;G06V10/762;G06V10/764;G06V10/82;G06V10/80;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 三维 视觉 注意力 预测 方法 及其 应用 | ||
本发明公开了一种多模态三维视觉注意力预测方法,包括以下步骤,(1)样本数据和样本标签采集、(2)样本数据预处理、(3)多模态视觉注意力模型构建、(4)训练多模态视觉注意力模型、(5)预测用户在浏览画面时的注意力;其中,多模态视觉注意力模型包括注意力长短期记忆人工模块、残差全连接卷积网络模块以及融合模块,残差全连接卷积网络模块中包括特征提取模块、最大池化模块和平均池化模块。本发明通过多模态融合技术综合利用眼动和头部运动多个模态的数据,提高视觉注意力预测的准确度,本发明预测方法可用于定位视觉兴趣区域和视觉搜索路径、评估空间信息布局,提高了评估效率,节约了评估成本。
技术领域
本发明涉及眼动追踪领域,具体涉及一种多模态三维视觉注意力预测方法及其应用。
背景技术
眼动追踪技术通过追踪眼部特征并映射到现实世界或虚拟画面上获取注视点数据。多模态融合技术整合两个或多个模态的信息,实现信息补充,从而提高预测结果的精度和预测模型的鲁棒性。传统眼动跟踪技术基于二维图像和视频序列进行视觉注意力检测,如公开号为CN111309138A和CN113040700A的申请专利仅提高了基于二维图像的眼动追踪的精确度和效率,不能用到三维空间的视觉注意力检测中去。传统眼动跟踪技术仅基于眼部或眼部特征进行眼动跟踪,如申请号为CN111625090A和CN111417335A的专利申请仅关注眼部图像的处理,没有进行多模态数据融合,存在噪音干扰时难以去除误差,影响预测结果的准确度。
注视点数据可以反映用户的注意力和认知状态,从而应用于评估。传统三维空间设计评估方法通常采用问卷法、访谈法、行为观察法和专家评价法。这些方法需要招募大量被试才能获取可靠的数据,往往需要消耗大量的金钱和时间成本,且结论缺少客观数据支撑。使用多模态视觉注意力预测的视觉兴趣区域和视觉搜索路径提供用户在三维空间的注视模式、注视重点等信息,辅助设计师对三维空间的干扰项和视觉盲点进行评估,不仅可以提高效率,节约成本,而且能对三维空间设计评估提供客观数据的有力支撑。
公开号为CN113177515A的中国专利文献公开了一种基于图像的眼动追踪方法,包括对待检测图像进行人脸检测,获得人脸检测框;利用人脸关键点定位网络定位出眼睛感兴趣区域并进行瞳孔关键点定位;基于瞳孔中心和眼睛区域中心计算获取水平偏移比率以确定人眼朝向。该方法能够在环境光照条件不理想,背景复杂等情况下有效地定位到人脸和瞳孔中心并进行眼动跟踪,该方法同样也是仅关注眼部图像的处理。
发明内容
本发明提供了一种多模态三维视觉注意力预测方法,通过多模态融合技术综合利用眼动和头部运动多个模态的数据进行视觉注意力预测,提高了预测准确度。
具体采用的技术方案如下:
1.一种多模态三维视觉注意力预测方法,包括以下步骤:
(1)采集用户的浏览画面,并记录浏览画面时的用户转头速度、用户转头方向以及视觉注视点,其中,浏览画面、用户转头速度以及用户转头方向作为样本数据,视觉注视点作为样本标签;
(2)对样本数据进行预处理,所述的预处理步骤为:利用预训练的球面卷积模型提取样本数据的二维特征后,对二维特征依次进行时间戳对齐、数据补漏、噪声清洗、归一化处理,得到预处理后的样本数据;预处理后的样本数据包括头动样本数据和画面样本数据;
(3)构建包括注意力长短期记忆人工模块、残差全连接卷积网络模块以及融合模块的多模态视觉注意力模型;其中,将头动样本数据输入至注意力长短期记忆人工模块提取得到行为特征,将画面样本数据输入至残差全连接卷积网络模块提取得到视觉特征,行为特征和视觉特征经融合模块融合后预测注意力位置;
(4)利用预处理后样本数据对多模态视觉注意力模型在样本标签的监督下进行训练,以优化多模态视觉注意力模型参数;
(5)利用参数优化的多模态视觉注意力模型预测用户在浏览画面时的注意力并显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111465974.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:快速聚焦中继镜头及快速聚焦装置
- 下一篇:一种橡胶制品生产用自动采集装置