[发明专利]一种图文序列匹配的跨媒体综合推理方法和系统有效
申请号: | 201911127259.1 | 申请日: | 2019-11-18 |
公开(公告)号: | CN110889505B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 彭宇新;黄鑫 | 申请(专利权)人: | 北京大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/0442;G06N3/096 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图文 序列 匹配 媒体 综合 推理 方法 系统 | ||
1.一种图文序列匹配的跨媒体综合推理方法,包括以下步骤:
建立跨媒体蕴涵推理数据集,其中前提包括图像和文本两种媒体类型,结论的媒体类型为文本;
利用跨媒体蕴涵推理数据集训练图文序列匹配深度网络,在网络训练时使用跨任务跨媒体迁移的训练方法;其中图文序列匹配深度网络首先对图像前提、文本前提、文本结论提取局部特征,再将文本-文本、文本-图像、文本-图像-文本三种组合的表示进行编码,通过自适应门限聚合与蕴涵关系分类器,得到蕴涵关系预测得分;在跨任务跨媒体迁移的训练方法中,每一组图像前提和文本前提具有成对关联关系,采用三元组度量学习损失进行检索任务训练,再将网络参数共享于蕴涵推理网络部分,将检索任务的关联知识迁移至蕴涵推理任务网络;同时,采用最大平均差异作为迁移损失,最小化图像、文本的局部统一表征分布差异,实现图像和文本前提之间的知识迁移;
利用训练好的图文序列匹配深度网络进行推理,判断给定前提和结论的蕴涵关系。
2.如权利要求1所述的图文序列匹配的跨媒体综合推理方法,其特征在于,所述跨媒体蕴涵推理数据集中,每组数据由一个图像前提、一个文本前提和一个文本结论构成,且具有蕴涵关系标注。
3.如权利要求1所述的图文序列匹配的跨媒体综合推理方法,所述图文序列匹配深度网络将跨媒体蕴涵推理任务建模为综合序列匹配问题,利用文本-文本、文本-图像、文本-图像-文本三种组合可能包含的逻辑关系,实现综合推理。
4.如权利要求3所述的图文序列匹配的跨媒体综合推理方法,其特征在于,在所述图文序列匹配深度网络中,首先对图像前提、文本前提、文本结论都提取局部特征,再分别通过一个全连接层转换为同样维度的局部统一表征;将局部统一表征分别通过序列编码模型,转换成为局部序列表征;对于图像前提、文本前提、文本结论,局部序列表征通过图像-文本、图像-文本-文本、文本-文本三种组合方式进行拼接,分别输入DMAN模型得到上下文编码;将上下文编码通过自适应门限聚合以及蕴涵关系分类器并将分类概率相加,得到最终的蕴涵关系预测得分。
5.如权利要求1所述的图文序列匹配的跨媒体综合推理方法,其特征在于,在所述跨任务跨媒体迁移的训练方法中,跨任务迁移发生在跨媒体检索任务和蕴涵推理任务之间,目标是将检索任务蕴含的关联知识迁移至蕴涵推理任务网络;在跨媒体蕴涵推理数据集中,每一组图像前提和文本前提具有成对关联关系,将成对数据视为相关,不成对数据视为不相关,采用三元组度量学习损失进行检索任务训练,再将网络参数共享于蕴涵推理网络部分,从而实现跨任务迁移。
6.如权利要求5所述的图文序列匹配的跨媒体综合推理方法,其特征在于,所述三元组度量学习损失采用下式计算:
LSim=max(0,α+sim(G(in)+,G(tn)+)-sim(G(in)+,G(tn)-))+max(0,α+sim(G(in)+,G(tn)+)-sim(G(tn)+,G(in)-))
其中,G(in)+,G(tn)+为具有成对关联的图像、文本前提对,G(in)+,G(tn)-和G(tn)+,G(in)-为不具有成对关联的图像、文本前提对,max为求最大值运算,sim为距离度量运算,α为边界参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911127259.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种侧向分离旋转消音器
- 下一篇:基于数控车床加工的油管接头异形螺纹加工装置