[发明专利]多模态特征的融合方法、装置、设备、介质及产品在审

申请号：	202210151570.5	申请日：	2022-02-18
公开（公告）号：	CN114663733A	公开（公告）日：	2022-06-24
发明（设计）人：	余威;王昆	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06V10/80	分类号：	G06V10/80;G06V10/82;G06V30/19;G06V20/62;G06F16/29;G06N3/04;G06K9/62
代理公司：	北京钲霖知识产权代理有限公司 11722	代理人：	李英艳;杨继成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	多模态特征融合方法装置设备介质产品
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多模态特征的融合方法，包括：

获取同一图像的多种模态特征；

对所述多种模态特征中的每种模态特征进行编码；

采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，得到多个初始融合特征；

将所述多个初始融合特征再次进行融合，得到目标融合特征。

2.根据权利要求1所述的方法，其中，所述采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，包括：

若模态特征的数量小于或等于预设数量，则将编码得到的所有编码特征直接采用多头注意力机制，进行特征交叉融合。

3.根据权利要求1所述的方法，其中，所述采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，包括：

若模态特征的数量大于预设数量，则对模态特征进行编码得到的所有编码特征，按照所述预设数量进行组合；

将组合后得到的所有组合结果中的各组合结果，分别采用多头注意力机制，进行特征交叉融合。

4.根据权利要求1-3中任意一项所述的方法，其中，所述模态特征包括：

图像特征，文本特征，图像中兴趣点POI坐标，拍摄图像的拍摄角度，拍摄图像的时间和/或图像所在区域。

5.根据权利要求4所述的方法，其中，所述对所述多种模态特征中的每种模态特征进行编码，包括：

若所述模态特征为POI坐标，则利用GeoHash对所述POI坐标进行向量编码，并对编码得到的向量进行向量升维；

基于向量升维后的编码向量，对所述POI坐标进行编码。

6.根据权利要求4所述的方法，其中，所述对所述多种模态特征中的每种模态特征进行编码，包括：

若所述模态特征为除图像特征和POI坐标外的其他模态特征，则利用word2Vec对所述其他模态特征进行编码。

7.根据权利要求1-3中任意一项所述的方法，其中，所述将所述多个初始融合特征再次进行融合，得到目标融合特征，包括：

利用多层感知机对所述多个初始融合特征进行再次融合，得到目标融合特征。

8.一种多模态特征的融合装置，包括：

获取单元，用于获取同一图像的多种模态特征；

编码单元，用于对所述多种模态特征中的每种模态特征进行编码；

第一融合单元，用于采用多头注意力机制，对编码得到的所有编码特征进行特征交叉融合，得到多个初始融合特征；

第二融合单元，用于将所述多个初始融合特征再次进行融合，得到目标融合特征。

9.根据权利要求8所述的装置，其中，所述第一融合单元用于：

若模态特征的数量小于或等于预设数量，则将编码得到的所有编码特征直接采用多头注意力机制，进行特征交叉融合。

10.根据权利要求8所述的装置，其中，所述第一融合单元还用于：

若模态特征的数量大于预设数量，则对模态特征进行编码得到的所有编码特征，按照所述预设数量进行组合；

将组合后得到的所有组合结果中的各组合结果，分别采用多头注意力机制，进行特征交叉融合。

11.根据权利要求8-10中任意一项所述的装置，其中，所述模态特征包括：

图像特征，文本特征，图像中兴趣点POI坐标，拍摄图像的拍摄角度，拍摄图像的时间和/或图像所在区域。

12.根据权利要求11所述的装置，其中，所述编码单元，用于：

若所述模态特征为POI坐标，则利用GeoHash对所述POI坐标进行向量编码，并对编码得到的向量进行向量升维；

基于向量升维后的编码向量，对所述POI坐标进行编码。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司，未经北京百度网讯科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210151570.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载