[发明专利]基于多模态预训练模型的跨模态理解与生成方法和装置有效
申请号: | 202110653593.1 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113591902B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 刘静;朱欣鑫;刘飞;郭龙腾 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/80;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态预 训练 模型 跨模态 理解 生成 方法 装置 | ||
1.一种基于多模态预训练模型的跨模态理解与生成方法,其特征在于,包括:
确定待处理的多模态信息,所述多模态信息包括图像、文本和音频;
将所述多模态信息输入至多模态预训练模型,学习所述多模态信息的相互关联,得到所述多模态信息的融合表示,将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务,得到理解结果和/或生成结果;
所述理解和/或生成单元包括理解模块和生成模块,其中所述理解模块基于所述融合表示执行跨模态理解任务,所述生成模块基于所述融合表示执行跨模态生成任务;
所述将所述多模态信息输入至多模态预训练模型,学习所述多模态信息的相互关联,得到所述多模态信息的融合表示,将所述融合表示输入至理解和/或生成单元执行跨模态理解与生成任务,得到理解结果和/或生成结果,包括:
将所述图像、文本和音频输入至所述多模态预训练模型的单模态编码器,得到所述单模态编码器输出的图像特征、文本特征和音频特征;
将所述图像特征、文本特征和音频特征输入至所述多模态预训练模型的跨模态编码器,得到所述跨模态编码器输出的融合表示,所述融合表示是基于所述图像特征、文本特征和音频特征之间的跨模态关联确定的;
将所述融合表示输入至所述理解模块,得到所述理解模块输出的理解结果,和/或,将所述融合表示输入至所述生成模块,得到所述生成模块输出的生成结果。
2.根据权利要求1所述的基于多模态预训练模型的跨模态理解与生成方法,其特征在于,所述多模态预训练模型是基于元素级建模、模态级建模和样本级建模中的至少一种训练得到的;
所述元素级建模是基于样本多模态信息中任一元素掩盖模态信息和其他完整模态信息,预测所述任一元素掩盖模态信息中被掩盖的元素;
所述模态级建模是基于样本多模态信息中的两种完整模态信息,重构/生成与所述两种完整模态信息相匹配的第三种模态信息;
所述样本级建模是基于随机组合的三种模态信息,预测所述三种模态信息之间的匹配关系。
3.根据权利要求2所述的基于多模态预训练模型的跨模态理解与生成方法,其特征在于,所述元素级建模包括掩盖文本建模、掩盖图像建模和掩盖音频建模中的至少一种;
所述掩盖文本建模的目标函数是基于被掩盖的文本元素和预测所得的文本元素确定的;
所述掩盖图像建模的目标函数是基于被掩盖的图像元素和预测所得的图像元素的特征和分类确定的;
所述掩盖音频建模的目标函数是基于被掩盖的音频元素和预测所得的音频元素的特征之差和相似性确定的。
4.根据权利要求2所述的基于多模态预训练模型的跨模态理解与生成方法,其特征在于,所述模态级建模包括文本重构和/或图像重构;
所述文本重构的目标函数是基于重构文本和样本文本确定的;
所述图像重构的目标函数是基于重构图像和样本图像确定的。
5.根据权利要求2所述的基于多模态预训练模型的跨模态理解与生成方法,其特征在于,所述样本级建模的目标函数是基于预测所得匹配关系和所述随机组合的三种模态信息的实际匹配关系确定的。
6.根据权利要求1至5中任一项所述的基于多模态预训练模型的跨模态理解与生成方法,其特征在于,所述理解和/或生成单元用于图像分类、语义理解、语音识别、以图搜文、以文搜图、视觉问答中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110653593.1/1.html,转载请声明来源钻瓜专利网。