[发明专利]一种图文序列匹配的跨媒体综合推理方法和系统有效
申请号: | 201911127259.1 | 申请日: | 2019-11-18 |
公开(公告)号: | CN110889505B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 彭宇新;黄鑫 | 申请(专利权)人: | 北京大学 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/0442;G06N3/096 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图文 序列 匹配 媒体 综合 推理 方法 系统 | ||
本发明涉及一种图文序列匹配的跨媒体综合推理方法和系统。该方法包括以下步骤:1.建立跨媒体蕴涵推理数据集,其中前提包括图像和文本两种媒体类型,结论的媒体类型为文本。2.利用跨媒体蕴涵推理数据集训练图文序列匹配深度网络,在网络训练时使用了跨任务跨媒体迁移的训练方法。3.利用训练好的图文序列匹配网络结构进行推理,判断给定前提和结论的蕴涵关系。与现有方法相比,本发明能够实现基于图像和文本前提的蕴涵推理,并将检索任务蕴含的关联知识迁移至推理任务网络,提高推理准确率。
技术领域
本发明涉及多媒体分析领域,具体涉及一种图文序列匹配的跨媒体综合推理方法和系统。
背景技术
人类能够从已知的事实中推断出新的结论,这种推理能力对于感知认知外部世界至关重要。蕴涵推理是一种基本而重要的推理形式,指的是判断结论H和前提P是否具有蕴涵关系,即判断逻辑表达式“P→H”是否成立。它是智能人机交互中的支撑技术,在智能问答、知识抽取等应用中具有广泛的应用价值。现有方法主要以文本蕴涵推理的研究为主,即结论H和前提P均为一段文本。然而,人类的推理过程是涉及视觉、语言等感官的跨媒体综合推理,现有技术无法处理多种媒体(如图像和文本)前提下的推理过程。如何突破单一媒体类型的限制,实现多种媒体前提参与的综合推理,成为了扩展推理广度与深度的重要问题。
在文本蕴涵推理的相关技术上,主要包括两类方法。第一类方法是基于规则推理的,思想是通过给定的规则集合,尝试将前提文本变换到结论文本。规则集合一般包括包含、因果等关系,如dog→animal、buy→own等。如Mirkin等人在文献“Source-LanguageEntailment Modeling for Translating Unknown Terms”中提出的方法,能够将前提和结论中的单词、短语进行规则变换,看是否能够完成匹配。由于规则主要依靠人工定义,难以覆盖现实世界中的推理现象,因此基于规则推理的方法的泛化性不好。第二类方法是基于特征提取的,是现有研究中的主流方法。它的基本思想是对前提和结论提取文本特征向量,再通过分类器判断两个向量的关系,作为推理结果。如Bowman等人在文献“LargeAnnotated Corpus for Learning Natural Language Inference”中提出将前提和结论用循环神经网络提取为特征向量,再通过全连接层进行蕴涵关系分类。此外,由于序列信息对于判断文本蕴涵关系非常重要,文本序列匹配的思想也被应用于一些现有方法中,取得了准确率的提升。然而,上述方法仍然局限于文本推理,无法处理多种媒体(如图像和文本)前提的蕴涵推理。
在跨媒体分析的相关技术上,面临的主要挑战是“异构鸿沟”问题,指的是图像、文本等不同媒体的表征不一致,使得跨媒体相似性难以度量,语义关联难以建立。现有的主流方法是跨媒体统一表征,即将不同媒体映射到同一个语义空间。如Rasiwasia等人在文献“ANew Approach to Cross-Modal Multimedia Retrieval”中提出的高层语义映射方法,先依据图像和文本的成对关系,利用典型相关分析方法映射到同一个空间中,再依据训练集的类别标签,利用逻辑回归方法得到语义表征。双模态深度自编码器(Ngiam等人发表于文献“Multimodal Deep Learning”)是一个代表性的深度跨媒体分析模型。它基于深度玻尔兹曼机,对于音频、视频两种媒体各自构建一个自编码器,这两个自编码器共享同一个编码输出层,能够捕捉它们的共性语义。然而,上述方法重点都在于学习跨媒体关联关系,从而计算跨媒体相似性,无法支持蕴涵推理任务。
发明内容
针对现有技术的不足,本发明提出了一种图文序列匹配的跨媒体综合推理方法和系统。通过将蕴涵推理任务建模为序列匹配问题,结合跨任务跨媒体迁移的训练方法,能够实现基于图像和文本前提的蕴涵推理,并将检索任务蕴含的关联知识迁移至蕴涵推理任务网络,提高推理准确率。
为达到以上目的,本发明采用的技术方案如下:
一种图文序列匹配的跨媒体综合推理方法,用于对图像和文本的前提与结论进行序列编码,并进行细粒度推理线索的序列匹配,实现基于文本和图像前提的蕴涵推理。包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911127259.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种侧向分离旋转消音器
- 下一篇:基于数控车床加工的油管接头异形螺纹加工装置