[发明专利]跨模态特征提取、检索以及模型的训练方法、装置及介质有效
申请号: | 202210803045.7 | 申请日: | 2022-07-07 |
公开(公告)号: | CN115359383B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 汪浩然;何栋梁;李甫;丁二锐 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/70;G06V10/82;G06F40/30;G06N3/0455;G06N3/0464;G06N3/047;G06N3/048;G06F16/783;G06F16/732;G06F16/383;G06F16/332;G06F16/33 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 刘振龙 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 跨模态 特征 提取 检索 以及 模型 训练 方法 装置 介质 | ||
本公开提供了一种跨模态特征提取、检索以及模型的训练方法、装置及介质,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取待处理数据,所述待处理数据对应至少两类第一模态;在述待处理数据中确定第二模态的第一数据,所述第二模态为所述第一模态中的任一类模态;对所述第一数据进行语义实体提取,得到语义实体;基于所述第一数据和所述语义实体,并采用预先训练的跨模态特征提取模型,获取所述第一数据的语义编码特征。本公开的技术,能够有效地提高跨模态应用中的特征提取的准确性,进而提高跨模态应用如跨模态检索的效率。
技术领域
本公开涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域,尤其涉及一种跨模态特征提取、检索以及模型的训练方法、装置及介质。
背景技术
近年来短视频应用吸引了互联网中的一大部分流量,这一现象一方面使得互联网中产生了大量的视频内容,有了大量的数据积累,另一方面如何从海量的视频中检索到用户所需的对应内容,以及如何识别用户生产的视频内容,使其在后续能够被更好的利用,获得更加准确的流量引流和内容分类管理等,都对视频理解和视频领域的跨模态检索技术都提出了新的要求。
基于视频和文本的跨模态的检索方案中,需要分别获取视频的特征和对应的文本的特征,进而实现跨模态检索。其中视频的特征基于视频特征融合的方法来实现。例如,可以先提取视频的不同类型特征,如音频、自动语音识别(Automatic Speech Recognition;ASR)文本、物体检测、动作识别等特征。对于每种类型的特征使用专用的特征提取器来提取。接下来,再通过多种类型特征融合,得到视频的全局特征。与此同时,使用专用编码器提取文本的特征。最后,在公共的全局语义空间进行语义特征对齐,得到跨模态的语义相似度,进而实现检索。
发明内容
本公开提供了一种跨模态特征提取、检索以及模型的训练方法、装置及介质。
根据本公开的一方面,提供了一种跨模态特征提取方法,包括:
获取待处理数据,所述待处理数据对应至少两类第一模态;所述至少两类第一模态包括视频模态、文本模态、语音模态、以及图片模态中的至少两类;
在所述待处理数据中确定第二模态的第一数据,所述第二模态为所述第一模态中的任一类模态;
对所述第一数据进行语义实体提取,得到语义实体;
基于所述第一数据和所述语义实体,并采用预先训练的跨模态特征提取模型,获取所述第一数据的语义编码特征。
根据本公开的另一方面,提供了一种跨模态检索方法,包括:
对查询信息进行语义实体提取,得到至少两个第一语义实体;所述查询信息对应第一模态;
从数据库中获取第二模态的第一信息;所述第二模态与所述第一模态不相同;
基于所述查询信息、所述第一语义实体、所述第一信息、和预先训练的跨模态特征提取模型,在所述数据库中进行跨模态的检索,得到与所述查询信息对应的检索结果信息,所述检索结果信息对应所述第二模态。
根据本公开的再一方面,提供了一种跨模态特征提取模型的训练方法,包括:
获取包括至少两条训练数据的训练数据组,所述训练数据对应至少两类第一模态;所述至少两类第一模态包括视频模态、文本模态、语音模态、以及图片模态中的至少两类;
在所述训练数据组中确定第二模态的第一数据和第三模态的第二数据,所述第二模态和所述第三模态分别为所述第一模态的任一类模态;
且所述第二模态与所述第三模态不同;
对所述第一数据和所述第二数据分别进行语义实体抽取,得到至少两个第一训练语义实体和至少两个第二训练语义实体;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210803045.7/2.html,转载请声明来源钻瓜专利网。