[发明专利]一种基于隐空间操作和文本引导的自适应图像编辑方法在审
申请号: | 202211267694.6 | 申请日: | 2022-10-17 |
公开(公告)号: | CN115797503A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 邓成;潘思多;张兹琪;魏坤;杨旭 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06T11/60 | 分类号: | G06T11/60;G06V10/82;G06V10/80;G06V30/19 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 万艳艳 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 空间 操作 文本 引导 自适应 图像编辑 方法 | ||
1.一种基于隐空间操作和文本引导的自适应图像编辑方法,其特征在于,包括:
步骤1,获取历史图像组成的训练样本集,并为每张历史图像增加用于描述图像属性的描述文本;
步骤2,提取每张历史图像的图像特征,并对所述图像特征进行多风格的反演编码,获得每张历史图像的隐向量;
步骤3,将所述每张历史图像的隐向量输入至已构建的自适应方向隐空间映射ADLM网络,以使ADLM网络将执行下述过程:
将所述每张历史图像的隐向量分为g个信道组;将每个信道组的隐向量隐射至W+空间,获得解耦的不同属性特征;计算每个属性特征的范数并从大到小进行排序,选择范数排序在前k个信道组对应的目标属性特征,对所述目标属性特征进行隐层操作,在隐层操作之后与每个信道组未映射之前的隐向量作残差处理,并通过监督学习的方式,输出每张历史图像的预估编辑图像;
步骤4,利用多模态融合网络,根据每张预估编辑图像与对应历史图像之间的差异值,计算给定的描述文本与差异值的语义一致性损失以及每张历史图像与预估编辑图像之间的重建损失,并按照使得所述语义一致性损失以及所述重建损失减少的方向,调整所述ADLM网络的参数以训练所述ADLM网络,直至达到训练截止条件,获得训练好的ADLM网络;
步骤5,基于所述训练好的ADLM网络,对待编辑的图像进行编辑预估,获得满足客户需求的编辑图像。
2.根据权利要求1所述的一种基于隐空间操作和文本引导的自适应图像编辑方法,其特征在于,所述ADLM网络包括依次连接的图像特征映射模块、自适应选择模块以及图像生成模块;
所述步骤3包括:将所述每张历史图像的隐向量输入所述图像特征映射模块中,以使所述图像特征映射模块将所述每张历史图像的隐向量分为多个信道组,将每个信道组的隐向量隐射至W+空间,获得解耦的不同属性特征;并将不同属性特征输入至所述自适应选择模块,以使自适应选择模块通过计算每个信道组的对应的属性特征的范数,选择范数从大到小排序在前k个信道组对应的目标属性特征,对所述目标属性特征进行隐层操作,在隐层操作之后与每个信道组未映射之前的隐向量作残差处理,得到最终操纵的隐向量,将所述最终操纵的隐向量输入至所述图像生成模块,以使图像生成模块通过监督学习的方式,输出每张历史图像的预估编辑图像。
3.根据权利要求2所述的一种基于隐空间操作和文本引导的自适应图像编辑方法,其特征在于,所述图像特征映射模块由分配层以及隐向量映射层构成,
所述分配层,用于将每张历史图像的隐向量分为多个信道组,并将每个信道组的隐向量输入至所述隐向量映射层;
所述隐向量映射层,用于将每个信道组的隐向量隐射至W+空间,获得目标属性特征,并将所有属性特征执行concat操作,获得解耦后的每张历史图像的隐向量。
4.根据权利要求2所述的一种基于隐空间操作和文本引导的自适应图像编辑方法,其特征在于,所述自适应选择模块由权重计算层、信道选择层以及残差连接层组成;
所述权重计算层,用于计算每个信道组对应的属性特征的范数,将计算结果输入所述信道选择层;
所述信道选择层,用于选择范数排序在前k个信道组对应的目标属性特征,对所述目标属性特征进行隐层操作,并将其余信道组的隐向量置零,获得每个信道组的操作隐向量,将所述操作隐向量输入至所述残差连接层;
所述残差连接层,用于每个信道组的操作隐向量的与每个信道组未映射之前的隐向量作残差处理,得到最终操纵的隐向量,并将所述最终操纵的隐向量输入至所述图像生成模块。
5.根据权利要求2所述的一种基于隐空间操作和文本引导的自适应图像编辑方法,其特征在于,所述图像生成模块由生成器和判别器组成;
所述生成器,用于输入所述最终操纵的隐向量,输出每张历史图像对应的预估编辑图像,将预估编辑图像输入至判别器中;
所述判别器,用于输入每张历史图像的描述文本以及预估编辑图像,计算描述文本与预估编辑图像的相似度,判别预估编辑图像与描述文本的内容是否一致从而反馈至所述生成器,监督生成器重新生成与描述文本一致的预估编辑图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211267694.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种丝杠传动振动控制系统及其控制方法
- 下一篇:创面修复热疗贴