[发明专利]一种基于主题适应与原型编码的少样本视觉故事叙述方法在审
申请号: | 202010857191.9 | 申请日: | 2020-08-24 |
公开(公告)号: | CN111708904A | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 庄越挺;浦世亮;汤斯亮;李嘉成;吴飞;肖俊;李玺;张世峰;任文奇;陆展鸿 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/535 | 分类号: | G06F16/535;G06F16/583;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 适应 原型 编码 样本 视觉 故事 叙述 方法 | ||
本发明公开了一种基于主题适应与原型编码的少样本视觉故事叙述方法。该方法首先将据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;对查询集中的样本提取时序视觉语义特征和图像序列特征,结合在支持集中预先提取好的的故事特征和图像序列特征计算原型向量;再将原型向量与图像序列特征结合,进一步解码获得故事性描述文本。整体视觉故事模型进一步通过元学习方法,根据在查询集上计算得到的综合损失来优化模型的初始参数。在推测阶段,模型通过少数样本调整参数,根据新图像序列生成故事文本。本发明结合原型编码及元学习方法,所构建的模型具有快速适应主题的能力,能更好地生成符合图像序列主题的故事性文本描述。
技术领域
本发明涉及视觉语言,尤其涉及一种基于主题适应与原型编码的少样本视觉故事叙述方法。
背景技术
视觉语言(Vision and Language)是一门计算机视觉与自然语言处理为一体的交叉学科。随着深度学习技术在两大领域带来重大突破,图像摘要,图像问答,图像检索等跨模态任务产生了令人深刻的结果。近来,研究者们更进一步,开始探索根据图像序列生成叙述性故事的视觉故事叙述任务(Visual Storytelling)。
在视觉故事叙述任务中,给定一个具有上下文联系的图像序列,要求模型输出一段具有叙述性风格的自然语言描述的故事。视觉故事叙述任务的任务特点要求模型不仅能够正确识别图像中的物体及其属性,还应当充分理解多幅图像之间的关联,从时间和空间的角度挖掘图像序列中的隐含信息,并根据视觉内容的变化进行适当的推断,最终生成连贯通顺的叙述性故事。视觉故事叙述技术可以为用户拍摄的图像序列产生描述,以便快速的分享到社交媒体,或用于日后检索。作为更加复杂的跨模态任务,视觉故事叙述也可以反映智能体理解图像序列和组织自然语言的能力的水平。
目前主流的视觉故事叙述模型受图像摘要模型启发,采用层次性的编码器-解码器架构,基于监督学习方式训练。许多先前工作都集中在设计复杂的模型结构上,这些模型通常需要大量的人工注释数据。但是,视觉故事叙述任务的标注既昂贵又复杂,因此无法注释大量的新数据,这一点成为监督学习方法的瓶颈。另一方面,以前的主题模型相关工作研究表明,现实世界中的主题通常遵循长尾分布,这意味着实际应用场景中有许多训练数据集中没有涵盖到的新主题,并且这些新主题的样本数量稀少。因此,传统监督模型不适合样本稀少的新主题,考虑少样本情景下的视觉故事叙述,则更加贴近现实生活中的应用场景。
发明内容
本发明的目的是针对视觉故事叙述任务中主题呈长尾分布,新主题样本数量稀少不适合传统监督模型的问题,提出了一种基于主题适应与原型编码的少样本视觉故事叙述方法。
为了实现上述发明目的,本发明具体采用的技术方案如下:
一种基于主题适应与原型编码的少样本视觉故事叙述方法,其包括如下步骤:
S1:将视觉故事数据集按主题划分,每一轮训练采样一批主题并将每个主题划分为支持集与查询集;
S2:将训练所用的支持集中的视觉故事样本中的故事文本与图像序列分别编码为故事特征和图像序列特征,存储备用;
S3:对查询阶段的图像序列提取时序视觉语义特征和图像序列特征,结合S2中所述支持集的故事特征和图像序列特征,计算得到原型向量;
S4:通过带有注意力机制的故事解码器,将S3中得到的图像序列特征和原型向量的组合特征解码为故事性描述文本;
S5:通过元学习方法,利用以S2~S4为框架构建的视觉故事叙述模型在查询集上的综合损失来优化视觉故事叙述模型的初始参数;
S6:在推测阶段,根据新主题的支持集进行少样本学习以调整视觉故事叙述模型参数,再使用调整过参数的视觉故事叙述模型为查询集中的样本生成故事性描述文本。
基于上述技术方案,本发明的各步骤还可以进一步采用如下具体方式实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010857191.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:风力发电机组机舱罩强度评估方法
- 下一篇:人体助力飞行器及其使用方法