[发明专利]利用文本描述生成图像进行行人搜索的方法在审
申请号: | 202111371918.3 | 申请日: | 2021-11-18 |
公开(公告)号: | CN114359132A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 辛宁;任术波;李久超;曾骏杰;李丽楠 | 申请(专利权)人: | 中国空间技术研究院 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T5/00;G06N3/04;G06N3/08 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 徐晓艳 |
地址: | 100194 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 文本 描述 生成 图像 进行 行人 搜索 方法 | ||
本发明涉及利用文本描述生成图像进行行人搜索的方法,属于计算机视觉技术领域,该方法包括如下步骤:S1、构造用于实现文本描述到行人图像转化的转化生成模型;S2、重复将指向目标行人的文本描述输入至转化生成模型中,加入随机噪声,生成K个对应目标行人文本描述的行人图像,记为查询图像,K个查询图像构成查询图像组,K≥1;S3、将查询图像组中的查询图像分别输入基于图像的行人搜索模型,获得K个对应的目标行人搜索结果序列,每个目标行人搜索结果序列中包括若干候选行人;S4、将K个目标行人搜索结果序列中的候选行人进行加权重排,将所有候选行人按照最终排序位次进行排序,获得文本描述的目标行人搜索结果。
技术领域
本发明属于计算机视觉技术领域,具体涉及一种利用文本描述生成图像进行行人搜索的方法。
背景技术
大数据、人工智能技术的发展,为建设安全便捷的智能社会提供了技术保障,其中智能视频监控系统是计算机视觉领域提供的最重要的技术之一,目前各种政府部门、企业单位、交通运输站、居民小区等场所均装配了监控摄像头,能够做到实时大规模的采集监控图像、视频资料,在面向行人相关的视觉应用中,由于摄像头分辨率,拍摄角度、距离和光照等因素影响,导致行人脸部清晰度不够,传统人脸识别技术无法有效使用,而基于行人的穿着、体型和姿态等开展行人相关分析是另一个非常有价值的视觉应用,即行人搜索(personsearch)。
具体而言,行人搜索技术包括一个图像或者文本形式的查询输入(目标行人的全身图像或者文本描述)和一个待查的图片库(该图片库中包含了摄像头采集的大量包含行人的图像画面),行人搜索利用查询输入,试图从行人图片库中将各个行人检测出来,并计算其与查询输入的相似度,进而根据相似度对可能匹配的图片进行排序返回,以完成对特定目标行人的搜索,行人搜索技术的应用场景包括:1)在人流密集公共场所例如车站、游乐园等场所智能寻人;2) 在无人超市中对顾客进行定位和身份识别;3)为家庭机器人的人体定位识别功能提供支持。
在技术层面,行人搜索任务主要包含行人检测和行人重识别两个子任务,针对待搜索图片库中的所有图片,行人检测负责从完整的图片中判定行人所在的区域(如用矩形框框定行人所在区域),行人重识别负责在大量不同环境下(如不同时间、不同地点)根据相似度计算,查找与目标行人匹配的行人区域及图像,也就是说,对行人检测确定的区域,提取行人视觉特征,与输入数据对应特征(如输入图像对应图像特征,如输入文本对应文本特征)进行匹配并按相似度进行排序返回结果,从而实现在图片库中搜索到目标行人的目的,事实上,相较于更为广泛研究的行人重识别任务,行人搜索任务中图像库中的图像是包含背景的完整场景图像,而不是截取出来的行人图像,因此更为贴近实际应用场景,也具有更大的技术难度。
在行人搜索任务中,大多数已有的方法都是基于行人图片作为查询对象的,即输入某个特定的行人图像,在目标图像或者视频库中去搜索该目标行人所在的画面和位置,尽管多数已有算法在基于图片的行人搜索问题上取得了较好结果,但在实际应用中,其可应用性和便捷性很有限,例如,某些情况下无法保证能够获得目标行人的某张图像来作为查询输入,也不能确保某张目标行人图像能够全面的表示该行人的特性,相较而言,在无法获得全面清晰的目标行人图像的情形下,人们更习惯于用自然语言来描述目标行人的视觉特点,例如“该行人穿着黄色运动鞋,带蓝色条纹的白袜子,黑色运动裤和黄蓝相见的T恤,留黑色短发……”,因此,有学者提出了基于文本描述的行人搜索模型和算法,即查询输入为文本描述(可以为简单语句,也可以为多个主要特点对应的词汇)。
相较于行人图像,文本描述更符合人们的描述习惯且更容易获得,所以基于文本描述的行人搜索更贴近实际场景需求。然而,基于文本描述的行人搜索方法准确性一般不如基于图像的行人搜索方法。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提出一种利用文本描述生成图像进行行人搜索的方法,使所述行人搜索的方法能够根据更全面的特征描述进行搜索,更贴近实际需求,并提高搜索的准确度。
本发明解决技术问题的方案是:利用文本描述生成图像进行行人搜索的方法,该方法包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国空间技术研究院,未经中国空间技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111371918.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种混合异位混合热脱附装置
- 下一篇:一种可再生能源绿色建筑一体化系统