[发明专利]多模态特征的融合方法、装置、设备、介质及产品在审
申请号: | 202210151570.5 | 申请日: | 2022-02-18 |
公开(公告)号: | CN114663733A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 余威;王昆 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/82;G06V30/19;G06V20/62;G06F16/29;G06N3/04;G06K9/62 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;杨继成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 特征 融合 方法 装置 设备 介质 产品 | ||
1.一种多模态特征的融合方法,包括:
获取同一图像的多种模态特征;
对所述多种模态特征中的每种模态特征进行编码;
采用多头注意力机制,对编码得到的所有编码特征进行特征交叉融合,得到多个初始融合特征;
将所述多个初始融合特征再次进行融合,得到目标融合特征。
2.根据权利要求1所述的方法,其中,所述采用多头注意力机制,对编码得到的所有编码特征进行特征交叉融合,包括:
若模态特征的数量小于或等于预设数量,则将编码得到的所有编码特征直接采用多头注意力机制,进行特征交叉融合。
3.根据权利要求1所述的方法,其中,所述采用多头注意力机制,对编码得到的所有编码特征进行特征交叉融合,包括:
若模态特征的数量大于预设数量,则对模态特征进行编码得到的所有编码特征,按照所述预设数量进行组合;
将组合后得到的所有组合结果中的各组合结果,分别采用多头注意力机制,进行特征交叉融合。
4.根据权利要求1-3中任意一项所述的方法,其中,所述模态特征包括:
图像特征,文本特征,图像中兴趣点POI坐标,拍摄图像的拍摄角度,拍摄图像的时间和/或图像所在区域。
5.根据权利要求4所述的方法,其中,所述对所述多种模态特征中的每种模态特征进行编码,包括:
若所述模态特征为POI坐标,则利用GeoHash对所述POI坐标进行向量编码,并对编码得到的向量进行向量升维;
基于向量升维后的编码向量,对所述POI坐标进行编码。
6.根据权利要求4所述的方法,其中,所述对所述多种模态特征中的每种模态特征进行编码,包括:
若所述模态特征为除图像特征和POI坐标外的其他模态特征,则利用word2Vec对所述其他模态特征进行编码。
7.根据权利要求1-3中任意一项所述的方法,其中,所述将所述多个初始融合特征再次进行融合,得到目标融合特征,包括:
利用多层感知机对所述多个初始融合特征进行再次融合,得到目标融合特征。
8.一种多模态特征的融合装置,包括:
获取单元,用于获取同一图像的多种模态特征;
编码单元,用于对所述多种模态特征中的每种模态特征进行编码;
第一融合单元,用于采用多头注意力机制,对编码得到的所有编码特征进行特征交叉融合,得到多个初始融合特征;
第二融合单元,用于将所述多个初始融合特征再次进行融合,得到目标融合特征。
9.根据权利要求8所述的装置,其中,所述第一融合单元用于:
若模态特征的数量小于或等于预设数量,则将编码得到的所有编码特征直接采用多头注意力机制,进行特征交叉融合。
10.根据权利要求8所述的装置,其中,所述第一融合单元还用于:
若模态特征的数量大于预设数量,则对模态特征进行编码得到的所有编码特征,按照所述预设数量进行组合;
将组合后得到的所有组合结果中的各组合结果,分别采用多头注意力机制,进行特征交叉融合。
11.根据权利要求8-10中任意一项所述的装置,其中,所述模态特征包括:
图像特征,文本特征,图像中兴趣点POI坐标,拍摄图像的拍摄角度,拍摄图像的时间和/或图像所在区域。
12.根据权利要求11所述的装置,其中,所述编码单元,用于:
若所述模态特征为POI坐标,则利用GeoHash对所述POI坐标进行向量编码,并对编码得到的向量进行向量升维;
基于向量升维后的编码向量,对所述POI坐标进行编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210151570.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:湿法VOC治理系统及其方法
- 下一篇:一种米饭自动分装装置