[发明专利]一种基于自然语言信息辅助的目标追踪方法在审
申请号: | 202011482969.9 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112509009A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 张世雄;李楠楠;龙仕强;朱鑫懿;魏文应 | 申请(专利权)人: | 深圳龙岗智能视听研究院 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06K9/62 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 万学堂;王跃交 |
地址: | 518116 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 信息 辅助 目标 追踪 方法 | ||
本发明提供了一种基于自然语言信息辅助的目标追踪方法,包括对图像进行视觉特征和自然语言特征描述,并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征;基于初始的视觉特征构建视觉追踪模型,以及基于初始的自然语言追踪模型构建自然语言的响应模型;以及利用融合了多层特征的图像特征检测器确定视觉特征的响应,以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。本方法结合自然语言信息和视觉信息优势,利用自然语言提供的高层次语义特征辅助视觉特征,使目标追踪更加稳定。
技术领域
本发明涉及计算机目标追踪的技术领域,特别涉及一种基于自然语言信息辅助的目标追踪方法。
背景技术
目标追踪是计算机视觉研究的热门领域之一,是指在一段连续的视频帧中,利用人工智能技术,自动追踪视频连续帧中出现的某个固定目标。目标追踪作为一项基础技术广泛应用于各种领域,例如:自动驾驶、智慧城市以及智能监控等多个场景。
目标追踪属于一个具有挑战的计算机视觉任务,对于视频中的运动目标而言,目标的运动场景很容易发生变化,而且目标本身也在运动中不断的变化。这些变化为目标追踪带来了不少的挑战。其中,常见的挑战有以下两种:遮挡挑战,是指目标在运动过程中存在部分或完全被遮挡,形变挑战,当目标在运动过程中,目标的外观、形态有可能会发生改变,这会对追踪的效果产生影响;以及背景杂乱的挑战,是指目标在运动过程中,其背景变化多样复杂,随时也会有光照的变化,背景中也可能会出现相似的目标,这些都对追踪的效果产生干扰,尤其实在长效追踪中,目标特征的变化导致长效追踪实现存在者挑战。目前,在大多数目标追踪领域主要用到的方法是利用深度卷积网络来提取特征从而进行短效追踪。
针对目前追踪领域存在的问题,主要是因为特征不够强大,缺乏更高层的语义信息对追踪的目标进行描述。
发明内容
鉴于此,本发明提供了一种基于自然语言信息辅助的目标追踪方法,结合自然语言信息和视觉信息优势,利用自然语言提供的高层次语义特征辅助视觉特征,使目标追踪更加稳定。
本发明的技术方案如下:
本发明的基于自然语言信息辅助的目标追踪方法,包括以下步骤:S1:对图像进行视觉特征和自然语言特征描述,并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征;S2:基于初始的视觉特征构建视觉追踪模型,以及基于初始的自然语言追踪模型构建自然语言的响应模型;以及S3:利用融合了多层特征的图像特征检测器确定视觉特征的响应,以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。
优选的,在上述目标追踪方法中,在步骤S1中,利用预训练好的卷积神经网络(CNN)提取目标和候选区域的视觉特征,以及利用长短记忆网络(LSTM)提取对目标进行描述的自然语言特征。
优选的,在上述目标追踪方法中,在步骤S1中,目标特征是在第一帧中,是由人进行标注,由目标中心点(x,y)和目标的宽和高(w,h)组成,获取到目标图块,将目标图块输入到训练好的卷积神经网络中,然后分别提取卷积神经网络的三个特征输出层,并对三个特征输出层输出的图像特征进行融合,生成多层特征,图像特征检测器将多层特征作为模板来进行检测。
优选的,在上述目标追踪方法中,在步骤S2中,构建自然语言的响应模型,用于寻找图片中与第一帧图片中目标描述最高的响应区域,其语言特征也被排列成一维的特征向量;构建视觉追踪模型,将从第一帧提取的目标视觉特征作为目标的模板特征,并将视觉特征向量排列成一维的特征向量。
优选的,在上述目标追踪方法中,在步骤S2中,对于新来的图像帧,利用视觉特征对图像进行检测,将目标的视觉特征与后选区域的特征进行对比,检测出前10个相似度高的图块作为输出;将输出的10个图块进行自然语言属性的检测,从10个图块中检测响应最高的作为目标的图块;输出目标在新一帧中的位置,得到新的图像;对于新来的一帧图像,重复上述操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳龙岗智能视听研究院,未经深圳龙岗智能视听研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011482969.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置