[发明专利]一种基于多辅助信息下的图像生成方法在审
申请号: | 202110301738.1 | 申请日: | 2021-03-22 |
公开(公告)号: | CN113052784A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 牛学硕;尹宝才;孔雨秋 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06T5/50 | 分类号: | G06T5/50;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 辅助 信息 图像 生成 方法 | ||
本发明属于计算机视觉任务下的图像生成领域,提供一种基于多辅助信息下的图像生成方法。本发明首次利用了多种辅助信息指导模型完成图像生成任务,该生成任务分两阶段完成,在第一阶段模型的输入为场景图信息和文本信息的融合特征,以场景图信息为主,文本信息为辅,以GAN网络模型为原型进行图像生成,生成粗略的图像;第二阶段的模型输入为文本信息和第一阶段的输出,目的是通过使用文本信息丰富图像细节,生成高质量的图像。本发明通过使用真实数据集进行训练并评估,同时与目前主流的图像生成模型做对比,评估其性能提升。
技术领域
本发明属于计算机视觉任务下的图像生成领域,涉及一种基于多种辅助信息参与下指导图像生成的方法。
背景技术
在日常生产和生活中,这样的场景随处可见:海报设计师不能很好的理解客户的描述,导致客户和海报设计师之间进行长时间的无效沟通,效率低下;案发现场的目击证人会描述出嫌疑人的模样,公安机关需要根据目击证人的描述得到嫌疑人的模样并进行破案;在房屋装修时,根据业主的描述,如果能够快速看到装修结果图,业主对装修方案的满意度也会大大提升。一直以来,人们对审美的要求很多时候都追求图文并茂,图像能够从视觉上给人冲击,展现出文字所不能描述的含义,文字则能从语义层面,用华丽的词藻展现出感官不能感受的文字美丽。只有图文共同出现时,才能从不同的角度呈现出一个场景的全方位的解读。但是在实际生活场景中,很容易获得文字数据、语音数据,在一定程度上比较难获得图像数据,因此,如何在人工智能不断取得新成果的背景下,利用新兴技术的技术形式来展现文字描述的画面,是一个促进生产、提高生活质量的重要研究方向。近些年,机器学习和深度学习不断的发展并在实际应用中取得了较多的成果,各领域不断的进度使得多模态学习的探索和应用也逐步成为人工智能的热点。所谓的多模态学习,即将多模态信息进行融合、映射、迁移、学习等,目前学术领域研究最广泛的是图像和文字之间的交互,比如将一段文字作为输入,输出则是文字对应的图像。根据文本生成图像是多模态学习任务中一个常见的应用,该项研究将会给数据智能领域带来很大的推动力,其落地也会给生产和生活带来极大的便利。
目前主流的图像生成方法,仅采用了单一的信息参与模型的训练过程。例如,sg2im模型以场景图(scenegraph)信息作为模型的输入,指导进行图像生成;stackGAN,attnGAN等主流模型以文本描述去指导模型生成符合要求的图像。sg2im提出了通过scenegraph来建模文本中各对象及其关系,在获得scene graph的基础上对语义中的每个对象得到其bounding box和mask进而得到一个关于文本语义的scene layout,然后以此scenelayout作为输入加入到后续的GAN网络中生成图片。stackGAN使用了两个GAN来分步生成图像。因为单纯在网络中增加up sampling并不能提升生成图片的质量,所以提出了这样一个分两阶段的GAN网络,第一阶段用于生成低精度(64x64)的图像,该阶段主要关注图像的背景,颜色及轮廓等基本信息;在第二阶段中将第一阶段的输出作为输入同时再次使用textembedding,从而获得了第一阶段丢失的细节信息,进而生成了256x256的更精细图片。同时在该方法中还加入了CA(Conditioning Augmentation)模块来对文本特征加入一些实用的随机噪声,从而使得生成图像具有更多的可变性。attnGAN增加了注意力机制,不仅提取文本的sentence feature作为全局约束,同时也将attention精确到word级别提取了wordembedding作为局部约束送入网络,生成器与鉴别器每次针对word embedding部分精准优化,从而使得生成图像更能突出文本中的细节。
发明内容
本发明的提出的方法是基于多种辅助信息的图像生成,通过提取多种信息的特征并融合,充分利用所有的辅助信息,使得生成的图像尽可能真实还原。本方法以场景图和文本描述信息为例进行研究内容介绍。
任务的研究目标有两个重要方面:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110301738.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示面板及其驱动方法、显示装置
- 下一篇:脱盒机
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序