[发明专利]一种基于多辅助信息下的图像生成方法在审

申请号：	202110301738.1	申请日：	2021-03-22
公开（公告）号：	CN113052784A	公开（公告）日：	2021-06-29
发明（设计）人：	牛学硕;尹宝才;孔雨秋	申请（专利权）人：	大连理工大学
主分类号：	G06T5/50	分类号：	G06T5/50;G06K9/62;G06N3/04;G06N3/08
代理公司：	大连理工大学专利中心 21200	代理人：	温福雪
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于辅助信息图像生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于计算机视觉任务下的图像生成领域，提供一种基于多辅助信息下的图像生成方法。本发明首次利用了多种辅助信息指导模型完成图像生成任务，该生成任务分两阶段完成，在第一阶段模型的输入为场景图信息和文本信息的融合特征，以场景图信息为主，文本信息为辅，以GAN网络模型为原型进行图像生成，生成粗略的图像；第二阶段的模型输入为文本信息和第一阶段的输出，目的是通过使用文本信息丰富图像细节，生成高质量的图像。本发明通过使用真实数据集进行训练并评估，同时与目前主流的图像生成模型做对比，评估其性能提升。

技术领域

本发明属于计算机视觉任务下的图像生成领域，涉及一种基于多种辅助信息参与下指导图像生成的方法。

背景技术

在日常生产和生活中，这样的场景随处可见：海报设计师不能很好的理解客户的描述，导致客户和海报设计师之间进行长时间的无效沟通，效率低下；案发现场的目击证人会描述出嫌疑人的模样，公安机关需要根据目击证人的描述得到嫌疑人的模样并进行破案；在房屋装修时，根据业主的描述，如果能够快速看到装修结果图，业主对装修方案的满意度也会大大提升。一直以来，人们对审美的要求很多时候都追求图文并茂，图像能够从视觉上给人冲击，展现出文字所不能描述的含义，文字则能从语义层面，用华丽的词藻展现出感官不能感受的文字美丽。只有图文共同出现时，才能从不同的角度呈现出一个场景的全方位的解读。但是在实际生活场景中，很容易获得文字数据、语音数据，在一定程度上比较难获得图像数据，因此，如何在人工智能不断取得新成果的背景下，利用新兴技术的技术形式来展现文字描述的画面，是一个促进生产、提高生活质量的重要研究方向。近些年，机器学习和深度学习不断的发展并在实际应用中取得了较多的成果，各领域不断的进度使得多模态学习的探索和应用也逐步成为人工智能的热点。所谓的多模态学习，即将多模态信息进行融合、映射、迁移、学习等，目前学术领域研究最广泛的是图像和文字之间的交互，比如将一段文字作为输入，输出则是文字对应的图像。根据文本生成图像是多模态学习任务中一个常见的应用，该项研究将会给数据智能领域带来很大的推动力，其落地也会给生产和生活带来极大的便利。

目前主流的图像生成方法，仅采用了单一的信息参与模型的训练过程。例如，sg2im模型以场景图(scenegraph)信息作为模型的输入，指导进行图像生成；stackGAN，attnGAN等主流模型以文本描述去指导模型生成符合要求的图像。sg2im提出了通过scenegraph来建模文本中各对象及其关系，在获得scene graph的基础上对语义中的每个对象得到其bounding box和mask进而得到一个关于文本语义的scene layout，然后以此scenelayout作为输入加入到后续的GAN网络中生成图片。stackGAN使用了两个GAN来分步生成图像。因为单纯在网络中增加up sampling并不能提升生成图片的质量，所以提出了这样一个分两阶段的GAN网络，第一阶段用于生成低精度(64x64)的图像，该阶段主要关注图像的背景，颜色及轮廓等基本信息；在第二阶段中将第一阶段的输出作为输入同时再次使用textembedding，从而获得了第一阶段丢失的细节信息，进而生成了256x256的更精细图片。同时在该方法中还加入了CA(Conditioning Augmentation)模块来对文本特征加入一些实用的随机噪声，从而使得生成图像具有更多的可变性。attnGAN增加了注意力机制，不仅提取文本的sentence feature作为全局约束，同时也将attention精确到word级别提取了wordembedding作为局部约束送入网络，生成器与鉴别器每次针对word embedding部分精准优化，从而使得生成图像更能突出文本中的细节。

发明内容

本发明的提出的方法是基于多种辅助信息的图像生成，通过提取多种信息的特征并融合，充分利用所有的辅助信息，使得生成的图像尽可能真实还原。本方法以场景图和文本描述信息为例进行研究内容介绍。

任务的研究目标有两个重要方面：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110301738.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T5-00 图像的增强或复原，如从位像到位像地建立一个类似的图形
G06T5-10 .利用非空间域滤波的
G06T5-20 .利用局部操作的
G06T5-40 .使用直方图技术的
G06T5-50 .通过使用多于一幅图像的，例如平均、减少
G06T5-30 ..侵蚀或扩张，如变薄

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多辅助信息下的图像生成方法在审

专利文献下载