[发明专利]一种面向通用多模态学习的神经框架搜索方法在审
申请号: | 202011300717.X | 申请日: | 2020-11-19 |
公开(公告)号: | CN112488292A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 余宙;俞俊;崔雨豪 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06K9/62;G06N3/08;G06T3/40;G06T9/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 通用 多模态 学习 神经 框架 搜索 方法 | ||
本发明公开了一种面向通用多模态学习的神经框架搜索方法。本发明包括以下步骤:1、对图像和文本数据进行数据预处理,提取特征。2、初始化编码器‑解码器结构冗余网络和对应的架构参数。3、从架构参数分布中采样出子结构,并计算结果。4、模型搜索,热启动和交替更新保证搜索结构的稳定性。5、模型训练,将搜索出的最优子网络重新训练,得到最优网络模型。本发明提出一种针对图像文本多模态建模的神经框架搜索的方法,特别是针对不同的任务搜索到了更优的子网络,降低了网络的参数量计算量,充分利用各模态的深层次特征,提高了扩模态特征的表达能力,并且在三个多模态任务中获得了领先的效果。
技术领域
本发明提出一种面向通用多模态学习的神经框架搜索方法MMNasNet。
背景技术
视觉问答(Visual Question Answering)是一项多模态领域的新兴任务,该任务旨在根据提供的图像,对某个给定的关于图像的问题进行回答。具体来讲是输入一副图像和一个问题,通过模型后回答出这个问题所对应的答案。例如,图像内容为一条街道,街道上有各种颜色的房子,停了不同类型的车,还有很多数,行走的行人。当给出一个具体问题时,例如“走在斑马线上的穿黑衣服的行人左边的汽车是什么颜色的?”,模型需要识别到图中的物体还有物体的不同属性然后进行推理得到答案。视觉定位(Visual Grounding)任务旨在根据提供的物体描述,找出图像中相应的物体。例如,图像内容为两个人,左边的人穿着黑夹克,右边的人戴着红色帽子。当给出一个物体描述时,例如“穿黑夹克右边的人的帽子”,模型需要定位到右边的人的那一顶红色帽子上。图文匹配(Image-Text Matching)有两个子任务,分别是图像-文本匹配和文本-图像匹配,其目标是给定一段文本和一定数量的图片或者给定一副图片和一定数量的文本,需要对图片和文本的相关度进行打分并根据分数进行排序,找出前n副最相关的图像。
为了得到上述三个任务更准确的预测,机器需要理解给定图像和文本,并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比纯文本检索或者阅读理解任务,多模态任务需要从和文本相比不同模态的和不同形式的图像中获得关键信息来得到答案,那么如何更高效更轻量化的融合多模态信息就是解决问题的关键。
神经框架搜索(Neural Architecture Search,NAS)是自动机器学习(AutoMachine Learning,Auto ML)的一个重要的分支。模型的结构设计一直是深度学习性能的关键因素,手工设计模型结构需要大量经验和人工试错并且模型的性能和效率都得不到保障。神经框架搜索旨在针对不同任务自动搜索出性能效率较为平衡的网络结构,在学术界工业界都是备受关注的课题,而神经框架搜索方法优异的特性也是解决上述三个任务的保证。和普通的单模态神经框架搜索任务相比,多模态神经框架搜索任务是至今无人涉及的领域,如何保证搜索到的结构是图像-文本两个模态间的最优子结构是解决多模态的框架搜索任务关键所在。
深度学习自2006年产生之后就受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。单一模态的丰富研究支撑起跨模态的研究,使得跨模态任务逐渐成为一个主流研究方向。同时跨模态更符合真实的生活场景,具有丰富的研究意义和实际价值。图像作为近几年来一直发展的研究媒体,瓶颈渐现,而结合了自然语言形成的图像-文本的跨模态研究方向成为学术界工业界的热门研究点,但近年来跨模态领域的模型参数量冗余、计算效率低下、手工设计费时费力,这使得多模态的神经框架搜索任务成为值得深入探索的研究领域。
在实际应用方面,多模态神经框架搜索算法具有广泛的应用场景。现有工业界多模态任务各式各样,如多模态检索、推荐,文章自动配图等,但不同的任务几乎都有一套不同的架构,一方面导致了手工设计的成本过高,另一方面也导致算法迁移的难度较大,所以自动的构建网络架构具有十分良好的研究前景及重要的研究意义。
综上所述,多模态神经框架搜索是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的多模态神经框架搜索系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011300717.X/2.html,转载请声明来源钻瓜专利网。