[发明专利]跨模态特征提取、检索以及模型的训练方法、装置及介质有效
申请号: | 202210803045.7 | 申请日: | 2022-07-07 |
公开(公告)号: | CN115359383B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 汪浩然;何栋梁;李甫;丁二锐 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/70;G06V10/82;G06F40/30;G06N3/0455;G06N3/0464;G06N3/047;G06N3/048;G06F16/783;G06F16/732;G06F16/383;G06F16/332;G06F16/33 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 刘振龙 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 跨模态 特征 提取 检索 以及 模型 训练 方法 装置 介质 | ||
1.一种跨模态应用中的特征提取方法,包括:
获取待处理数据,所述待处理数据对应至少两类第一模态;所述至少两类第一模态包括视频模态、文本模态、语音模态、以及图片模态中的至少两类;
在所述待处理数据中确定第二模态的第一数据,所述第二模态为所述第一模态中的任一类模态;
对所述第一数据进行语义实体提取,得到语义实体;
基于所述第一数据和所述语义实体,并采用预先训练的跨模态特征提取模型,获取所述第一数据的语义编码特征;
所述基于所述第一数据和所述语义实体,并采用预先训练的跨模态特征提取模型,获取所述第一数据的语义编码特征,包括:
基于所述语义实体,并采用所述跨模态特征提取模型中的实体编码模块,获取所述第一数据的语义实体编码特征;
基于所述第一数据,并采用所述跨模态特征提取模型中的全局语义特征提取模块,获取所述第一数据的全局语义特征;
基于所述语义实体编码特征、所述全局语义特征、和预设的权重配比,并采用所述跨模态特征提取模型中的融合模块,获取所述第一数据的语义编码特征。
2.根据权利要求1所述的方法,其中,所述第二模态为视频模态;所述对所述第一数据进行语义实体提取,得到语义实体,包括:
采用预先训练的语义实体提取模型,提取所述第一数据中各视频帧的所述语义实体。
3.根据权利要求1所述的方法,其中,所述第二模态为文本模态;所述对所述第一数据进行语义实体提取,得到语义实体,包括:
对所述第一数据中各词语进行语义角色标注;
基于所述语义角色,获取所述语义实体。
4.根据权利要求1所述的方法,其中,若所述语义实体的数量包括至少两个时,所述基于所述语义实体,并采用所述跨模态特征提取模型中的实体编码模块,获取所述第一数据的语义实体编码特征,包括:
基于各所述语义实体,并采用所述实体编码模块,获取各所述语义实体的编码特征和对应的注意力信息;
基于各所述语义实体的编码特征和对应的注意力信息,获取所述第一数据的语义实体编码特征。
5.一种跨模态特征提取模型的训练方法,包括:
获取包括至少两条训练数据的训练数据组,所述训练数据对应至少两类第一模态;所述至少两类第一模态包括视频模态、文本模态、语音模态、以及图片模态中的至少两类;
在所述训练数据组中确定第二模态的第一数据和第三模态的第二数据,所述第二模态和所述第三模态分别为所述第一模态的任一类模态;且所述第二模态与所述第三模态不同;
对所述第一数据和所述第二数据分别进行语义实体抽取,得到至少两个第一训练语义实体和至少两个第二训练语义实体;
基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体,对跨模态特征提取模型进行训练;
基于所述第一数据、所述至少两个第一训练语义实体、所述第二数据和所述至少两个第二训练语义实体,对跨模态特征提取模型进行训练,包括:
基于所述第一数据和所述至少两个第一训练语义实体,采用所述跨模态特征提取模型,获取所述第一数据的语义编码特征;
基于所述第二数据和所述至少两个第二训练语义实体,采用所述跨模态特征提取模型,获取所述第二数据的语义编码特征;
基于所述第一数据的语义编码特征和所述第二数据的语义编码特征,构建跨模态检索的损失函数;
若所述损失函数不收敛,调整所述跨模态特征提取模型的参数。
6.根据权利要求5所述的方法,其中,基于所述第一数据的语义编码特征和所述第二数据的语义编码特征,构建跨模态检索的损失函数,包括:
基于所述第一数据的语义编码特征和所述第二数据的语义编码特征,分别构建第二模态到第三模态进行信息检索的第一子损失函数和第三模态到第二模态进行信息检索的第二子损失函数;
将所述第一子损失函数和所述第二子损失函数相加,得到所述跨模态检索的损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210803045.7/1.html,转载请声明来源钻瓜专利网。