[发明专利]基于视线估计的目标注视识别方法及系统在审
申请号: | 202111047180.5 | 申请日: | 2021-09-08 |
公开(公告)号: | CN113947804A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 孙晓;高升;汪萌 | 申请(专利权)人: | 合肥工业大学;合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) |
主分类号: | G06V40/18 | 分类号: | G06V40/18;G06V40/19;G06V40/16;G06V10/40;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视线 估计 目标 注视 识别 方法 系统 | ||
本发明提供一种基于视线估计的目标注视识别方法及系统,涉及目标注视预测技术领域。本发明提取原图像和原图像的翻转图像的脸部特征和头部位置特征后,将脸部特征和头部位置特征通过特征拼接获得二维特征,然后基于二维特征获取注视视线区域的特征图,最后基于注视视线区域特征图和原图像,利用基于BoTNet网络的特征金字塔网络,获取注视热力图,从而实现图像中人物目标注视的识别和检测。本发明不受限于应用场景的限制,硬件条件约束较少,实际操作时简单方便,且目标注视识别和检测结果准确。
技术领域
本发明涉及目标注视预测技术,具体涉及一种基于视线估计的目标注视识别方法及系统。
背景技术
随着计算机视觉、人工智能技术和数字化技术的迅速发展,眼动追踪技术已成为当前热点研究领域,在人机交互领域有着广泛的应用。现实生活中经常需要以第三视角预测图像中人物注视目标,从而通过目标注视识别了解场景中人的关注内容,达到检测图像中人物所注视目标的目的。
目前,目标注视预测主要可以通过基于面部和基于视线两种技术来实现。基于面部的方式指通过提取眼部特征和面部特征进行预测;一般为提取照片中的眼部图像和脸部坐标,然后建立模型,提取特征,最后直接进行目标注视预测;基于视线的方法主要为通过眼睛图片或人脸图片推导出人的视线方向进行预测,建立模型,并提取图片中人脸特征或眼睛特征,然后进行特征拼接实现目标注视预测。
然而,基于面部的目标注视技术,要求图像能够有完整的面部并且需要提供眼睛位置信息,否则预测结果不准确,所以其应用场景受限;基于视线的目标注视技术,需要有额外的模块检测眼睛和额外的模块估计头部姿态,实际应用中操作复杂,约束较多,且预测结果不精准。所以,亟需提出一种新的目标注视方法,以至少克服现有技术存在的上述问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于视线估计的目标注视识别方法及系统,解决了现有技术存在在信息不足和硬件设备匮乏时无法精准获得目标注视识别结果的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明首先提出了一种基于视线估计的目标注视识别方法,所述方法包括:
提取原图像中的脸部特征和头部位置特征;所述脸部特征包括原图像中的脸部特征和原图像经过翻转后的翻转脸部特征;
将所述脸部特征和头部位置特征通过特征拼接获得二维特征;
基于所述二维特征获取注视视线区域的特征图;
基于所述注视视线区域特征图和原图像,利用基于BoTNet网络的特征金字塔网络获取注视热力图;所述BoTNet网络为利用多头Self-Attention替换ResNet网络中的3x3convolution后的网络。
优选的,所述提取原图像中的脸部特征包括:
利用ResNet模型提取原图像中的脸部特征。
优选的,所述利用ResNet模型提取原图像中的脸部特征包括:
S11、将原图像中眼睛坐标加减0.15得到脸部坐标,然后根据脸部坐标裁剪得到脸部图像;
S12、利用ResNet模型基于脸部图像提取原图像中的脸部特征;
S13、将原图像经过水平翻转后获取原图像的翻转图像,并将翻转图像经过所述S11和S12步骤提取翻转脸部特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学;合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室),未经合肥工业大学;合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111047180.5/2.html,转载请声明来源钻瓜专利网。