[发明专利]一种图文序列匹配的跨媒体综合推理方法和系统有效

申请号：	201911127259.1	申请日：	2019-11-18
公开（公告）号：	CN110889505B	公开（公告）日：	2023-05-02
发明（设计）人：	彭宇新;黄鑫	申请（专利权）人：	北京大学
主分类号：	G06N5/04	分类号：	G06N5/04;G06N3/0442;G06N3/096
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	邱晓锋
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种图文序列匹配媒体综合推理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种图文序列匹配的跨媒体综合推理方法和系统。该方法包括以下步骤：1.建立跨媒体蕴涵推理数据集，其中前提包括图像和文本两种媒体类型，结论的媒体类型为文本。2.利用跨媒体蕴涵推理数据集训练图文序列匹配深度网络，在网络训练时使用了跨任务跨媒体迁移的训练方法。3.利用训练好的图文序列匹配网络结构进行推理，判断给定前提和结论的蕴涵关系。与现有方法相比，本发明能够实现基于图像和文本前提的蕴涵推理，并将检索任务蕴含的关联知识迁移至推理任务网络，提高推理准确率。

技术领域

本发明涉及多媒体分析领域，具体涉及一种图文序列匹配的跨媒体综合推理方法和系统。

背景技术

人类能够从已知的事实中推断出新的结论，这种推理能力对于感知认知外部世界至关重要。蕴涵推理是一种基本而重要的推理形式，指的是判断结论H和前提P是否具有蕴涵关系，即判断逻辑表达式“P→H”是否成立。它是智能人机交互中的支撑技术，在智能问答、知识抽取等应用中具有广泛的应用价值。现有方法主要以文本蕴涵推理的研究为主，即结论H和前提P均为一段文本。然而，人类的推理过程是涉及视觉、语言等感官的跨媒体综合推理，现有技术无法处理多种媒体(如图像和文本)前提下的推理过程。如何突破单一媒体类型的限制，实现多种媒体前提参与的综合推理，成为了扩展推理广度与深度的重要问题。

在文本蕴涵推理的相关技术上，主要包括两类方法。第一类方法是基于规则推理的，思想是通过给定的规则集合，尝试将前提文本变换到结论文本。规则集合一般包括包含、因果等关系，如dog→animal、buy→own等。如Mirkin等人在文献“Source-LanguageEntailment Modeling for Translating Unknown Terms”中提出的方法，能够将前提和结论中的单词、短语进行规则变换，看是否能够完成匹配。由于规则主要依靠人工定义，难以覆盖现实世界中的推理现象，因此基于规则推理的方法的泛化性不好。第二类方法是基于特征提取的，是现有研究中的主流方法。它的基本思想是对前提和结论提取文本特征向量，再通过分类器判断两个向量的关系，作为推理结果。如Bowman等人在文献“LargeAnnotated Corpus for Learning Natural Language Inference”中提出将前提和结论用循环神经网络提取为特征向量，再通过全连接层进行蕴涵关系分类。此外，由于序列信息对于判断文本蕴涵关系非常重要，文本序列匹配的思想也被应用于一些现有方法中，取得了准确率的提升。然而，上述方法仍然局限于文本推理，无法处理多种媒体(如图像和文本)前提的蕴涵推理。

在跨媒体分析的相关技术上，面临的主要挑战是“异构鸿沟”问题，指的是图像、文本等不同媒体的表征不一致，使得跨媒体相似性难以度量，语义关联难以建立。现有的主流方法是跨媒体统一表征，即将不同媒体映射到同一个语义空间。如Rasiwasia等人在文献“ANew Approach to Cross-Modal Multimedia Retrieval”中提出的高层语义映射方法，先依据图像和文本的成对关系，利用典型相关分析方法映射到同一个空间中，再依据训练集的类别标签，利用逻辑回归方法得到语义表征。双模态深度自编码器(Ngiam等人发表于文献“Multimodal Deep Learning”)是一个代表性的深度跨媒体分析模型。它基于深度玻尔兹曼机，对于音频、视频两种媒体各自构建一个自编码器，这两个自编码器共享同一个编码输出层，能够捕捉它们的共性语义。然而，上述方法重点都在于学习跨媒体关联关系，从而计算跨媒体相似性，无法支持蕴涵推理任务。

发明内容

针对现有技术的不足，本发明提出了一种图文序列匹配的跨媒体综合推理方法和系统。通过将蕴涵推理任务建模为序列匹配问题，结合跨任务跨媒体迁移的训练方法，能够实现基于图像和文本前提的蕴涵推理，并将检索任务蕴含的关联知识迁移至蕴涵推理任务网络，提高推理准确率。

为达到以上目的，本发明采用的技术方案如下：

一种图文序列匹配的跨媒体综合推理方法，用于对图像和文本的前提与结论进行序列编码，并进行细粒度推理线索的序列匹配，实现基于文本和图像前提的蕴涵推理。包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911127259.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种侧向分离旋转消音器
下一篇：基于数控车床加工的油管接头异形螺纹加工装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N5-00 利用基于知识的模式的计算机系统
G06N5-02 .知识表达
G06N5-04 .推理方法或设备

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种图文序列匹配的跨媒体综合推理方法和系统有效

专利文献下载