[发明专利]基于文本的人物检索的双向一对多嵌入对齐方法在审
申请号: | 202310298214.0 | 申请日: | 2023-03-24 |
公开(公告)号: | CN116304145A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 纪荣嵘;孙晓帅;马祎炜;钱志鹏;纪家沂 | 申请(专利权)人: | 厦门大学深圳研究院 |
主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F18/22;G06V10/82;G06V10/42;G06V10/44;G06F40/279;G06N3/0464;G06N3/0442;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 518000 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 人物 检索 双向 一对 嵌入 对齐 方法 | ||
基于文本的人物检索的双向一对多嵌入对齐方法,涉及人物检索方法。1)使用预训练好的ResNet‑50主干网络提取图片特征,使用预训练好的BERT及可训练的Bi‑LSTM模型提取获取全局的视觉与文本特征;2)将视觉特征V均匀分割成K个不重叠部分,采用单词注意模块获得K个不同的文本特征,获取视觉局部特征与文本局部特征;3)建立非局部模块,基于余弦相似性得到非局部的视觉特征和语言特征;4)建立一种全新的双向一对多嵌入范式,具体分为双向嵌入和一对多嵌入两块功能;5)采用身份损失和复合排序损失,两者相加构造整体损失函数进行优化。模型能确定优化方向,同时解决图文对一对多的匹配问题。
技术领域
本发明涉及人物检索方法,尤其是涉及一种跨模态的基于文本的人物检索的双向一对多嵌入对齐方法。
背景技术
基于文本的人物检索(TPR)(Shuang Li,Tong Xiao,Hongsheng Li,Bolei Zhou,Dayu Yue,and Xiaogang Wang.Person search with natural language description.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 1970–1979,2017.1,2,5,6)是一项关键任务,它使用自然语言描述查询从大型图像库中查找目标人物。与传统的基于图像或基于属性的人物检索查询相比,语言描述比图像更容易访问,比属性更全面。然而,由于视觉和语言之间存在很大的模态差异,TPR比基于图像和基于属性的人物检索更具挑战性。
为了缓解巨大的模态差距,大多数文献(Xiao Han,Sen He,Li Zhang,and TaoXiang.Textbased person search with limited data.arXiv preprint arXiv:2110.10807,2021.1,6;Aichun Zhu,Zijie Wang,Yifeng Li,Xili Wan,Jing Jin,TianWang,Fangqiang Hu,and Gang Hua.Dssl:Deep surroundings-person separationlearning for text-based person retrieval.In Proceedings of the29th ACMInternational Conference on Multimedia,pages 209–217,2021.1,2,4,5,6)采用模态共享一对一嵌入范式,检索模型通过一对一投影函数将图像和文本描述嵌入到一个联合空间中,然后研究该空间中图像和文本对之间的语义对齐。尽管这种范式在理论上是优雅的,并且已经被广泛使用几十年,但它在优化和对齐方面仍然存在局限性。
发明内容
本发明旨在解决传统的模态共享一对一嵌入范式存在的优化困难、模态间难以对齐以及忽略一对多的图文对关系等问题。为此,发明提出了一种基于文本的人物检索的双向一对多嵌入对齐方法,使模型能够确定优化方向并解决图文对一对多的匹配问题。新的模型使用投影函数将视觉特征嵌入到文本空间中,并基于余弦相似度将其与文本特征对齐。对于文本特征,也采用相同的操作。同时,为减轻模态间对准的困难,设计一个残差嵌入模块组来缓解一对多对齐的困难。
本发明包括以下步骤:
1)使用预训练好的ResNet-50主干网络提取图片特征,使用预训练好的固定住的BERT以及可训练的Bi-LSTM模型提取文本特征,通过全局最大池化及全连接层获取全局的视觉与文本特征;
2)为了获得局部特征,将视觉特征V均匀地分割成K个不重叠的部分,同时采用单词注意模块获得K个不同的文本特征,通过全局最大池化和全连接层对视觉局部特征与文本局部特征进行提取;
3)建立非局部模块(non-local module,NLM),通过余弦相似性得到非局部的视觉特征和语言特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学深圳研究院,未经厦门大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310298214.0/2.html,转载请声明来源钻瓜专利网。