[发明专利]一种图文序列匹配的跨媒体综合推理方法和系统有效

专利信息
申请号: 201911127259.1 申请日: 2019-11-18
公开(公告)号: CN110889505B 公开(公告)日: 2023-05-02
发明(设计)人: 彭宇新;黄鑫 申请(专利权)人: 北京大学
主分类号: G06N5/04 分类号: G06N5/04;G06N3/0442;G06N3/096
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 图文 序列 匹配 媒体 综合 推理 方法 系统
【说明书】:

发明涉及一种图文序列匹配的跨媒体综合推理方法和系统。该方法包括以下步骤:1.建立跨媒体蕴涵推理数据集,其中前提包括图像和文本两种媒体类型,结论的媒体类型为文本。2.利用跨媒体蕴涵推理数据集训练图文序列匹配深度网络,在网络训练时使用了跨任务跨媒体迁移的训练方法。3.利用训练好的图文序列匹配网络结构进行推理,判断给定前提和结论的蕴涵关系。与现有方法相比,本发明能够实现基于图像和文本前提的蕴涵推理,并将检索任务蕴含的关联知识迁移至推理任务网络,提高推理准确率。

技术领域

本发明涉及多媒体分析领域,具体涉及一种图文序列匹配的跨媒体综合推理方法和系统。

背景技术

人类能够从已知的事实中推断出新的结论,这种推理能力对于感知认知外部世界至关重要。蕴涵推理是一种基本而重要的推理形式,指的是判断结论H和前提P是否具有蕴涵关系,即判断逻辑表达式“P→H”是否成立。它是智能人机交互中的支撑技术,在智能问答、知识抽取等应用中具有广泛的应用价值。现有方法主要以文本蕴涵推理的研究为主,即结论H和前提P均为一段文本。然而,人类的推理过程是涉及视觉、语言等感官的跨媒体综合推理,现有技术无法处理多种媒体(如图像和文本)前提下的推理过程。如何突破单一媒体类型的限制,实现多种媒体前提参与的综合推理,成为了扩展推理广度与深度的重要问题。

在文本蕴涵推理的相关技术上,主要包括两类方法。第一类方法是基于规则推理的,思想是通过给定的规则集合,尝试将前提文本变换到结论文本。规则集合一般包括包含、因果等关系,如dog→animal、buy→own等。如Mirkin等人在文献“Source-LanguageEntailment Modeling for Translating Unknown Terms”中提出的方法,能够将前提和结论中的单词、短语进行规则变换,看是否能够完成匹配。由于规则主要依靠人工定义,难以覆盖现实世界中的推理现象,因此基于规则推理的方法的泛化性不好。第二类方法是基于特征提取的,是现有研究中的主流方法。它的基本思想是对前提和结论提取文本特征向量,再通过分类器判断两个向量的关系,作为推理结果。如Bowman等人在文献“LargeAnnotated Corpus for Learning Natural Language Inference”中提出将前提和结论用循环神经网络提取为特征向量,再通过全连接层进行蕴涵关系分类。此外,由于序列信息对于判断文本蕴涵关系非常重要,文本序列匹配的思想也被应用于一些现有方法中,取得了准确率的提升。然而,上述方法仍然局限于文本推理,无法处理多种媒体(如图像和文本)前提的蕴涵推理。

在跨媒体分析的相关技术上,面临的主要挑战是“异构鸿沟”问题,指的是图像、文本等不同媒体的表征不一致,使得跨媒体相似性难以度量,语义关联难以建立。现有的主流方法是跨媒体统一表征,即将不同媒体映射到同一个语义空间。如Rasiwasia等人在文献“ANew Approach to Cross-Modal Multimedia Retrieval”中提出的高层语义映射方法,先依据图像和文本的成对关系,利用典型相关分析方法映射到同一个空间中,再依据训练集的类别标签,利用逻辑回归方法得到语义表征。双模态深度自编码器(Ngiam等人发表于文献“Multimodal Deep Learning”)是一个代表性的深度跨媒体分析模型。它基于深度玻尔兹曼机,对于音频、视频两种媒体各自构建一个自编码器,这两个自编码器共享同一个编码输出层,能够捕捉它们的共性语义。然而,上述方法重点都在于学习跨媒体关联关系,从而计算跨媒体相似性,无法支持蕴涵推理任务。

发明内容

针对现有技术的不足,本发明提出了一种图文序列匹配的跨媒体综合推理方法和系统。通过将蕴涵推理任务建模为序列匹配问题,结合跨任务跨媒体迁移的训练方法,能够实现基于图像和文本前提的蕴涵推理,并将检索任务蕴含的关联知识迁移至蕴涵推理任务网络,提高推理准确率。

为达到以上目的,本发明采用的技术方案如下:

一种图文序列匹配的跨媒体综合推理方法,用于对图像和文本的前提与结论进行序列编码,并进行细粒度推理线索的序列匹配,实现基于文本和图像前提的蕴涵推理。包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911127259.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top