[发明专利]多模态细粒度混合方法、系统、设备和存储介质有效
申请号: | 202110094267.1 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112819052B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 廖清;廖鑫鑫;漆舒汉;蒋琳;王轩 | 申请(专利权)人: | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;颜希文 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 细粒度 混合 方法 系统 设备 存储 介质 | ||
1.一种多模态细粒度混合方法,其特征在于,所述方法包括:
从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;
对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;
根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征;
其中,所述对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果的步骤包括:
计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果;
计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果;
所述计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果的步骤包括:归一化处理各所述视觉特征组成成分Vi的模态内相关性和模态间相关性获得各所述视觉特征组成成分Vi的特性为:
所述计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果的步骤包括:归一化处理各所述文本特征组成成分Ei的模态内相关性和模态间相关性获得各所述文本特征组成成分Ei的特性为:
所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤包括:
将各所述视觉特征组成成分和各所述文本特征组成成分转化为对应的查询特征和键值对特征;
计算各所述视觉特征组成成分对应的视觉区域查询特征和视觉键特征对的内积,获得各所述视觉特征组成成分的自身注意力权重,进行归一化处理,得到自身模态信息;以及计算各所述视觉特征组成成分对应的视觉区域查询特征和单词键特征对的内积,获得各所述视觉特征组成成分的跨模态注意力权重,进行归一化处理,获得各所述视觉特征组成成分对应的跨模态信息;
根据各所述视觉特征组成成分的特性分别乘以各所述视觉特征组成成分对应的自身模态信息和跨模态信息,使用残差结构获得融合视觉特征组成成分,并由各融合视觉特征组成成分构成融合视觉特征。
2.根据权利要求1所述的方法,其特征在于,所述计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果的步骤包括:
计算各所述视觉特征组成成分Vi的模态内相关性
计算各所述视觉特征组成成分Vi的模态间相关性
所述计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果的步骤包括:
计算各所述文本特征组成成分Ei的模态内相关性
计算各所述文本特征组成成分Ei的模态间相关性
3.根据权利要求1所述的方法,其特征在于,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤之后还包括:
对所述融合特征通过多次的细粒度分类和信息融合,得到具有识别力的表征数据,所述表征数据包括图片表征和文本表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),未经哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110094267.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于药材脱水保存设备
- 下一篇:一种设过偏检测结构的龙门吊