[发明专利]一种基于对抗网络和自注意力机制的无监督语义分割算法在审

申请号：	202210808548.3	申请日：	2022-07-11
公开（公告）号：	CN115346045A	公开（公告）日：	2022-11-15
发明（设计）人：	刘博;王慧娜;陈铭明	申请（专利权）人：	北京工业大学
主分类号：	G06V10/26	分类号：	G06V10/26;G06N3/04;G06N3/08;G06V10/44;G06V10/77;G06V10/80;G06V10/82
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于对抗网络注意力机制监督语义分割算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于对抗网络和自注意力机制的无监督语义分割算法，其特征在于，具体包含以下步骤：

步骤1、获取自动驾驶图像数据；

步骤2、利用对抗生成网络得到原始图像的生成图像；

步骤3、利用超像素图像分割算法对原始图像进行预分割；

步骤4、将图像输入局部特征提取网络获得图像的局部特征；

步骤5、将图像输入全局特征提取网络获得图像的全局特征；

步骤6、将局部特征和全局特征相加，并经过一层卷积层和Softmax函数层得到图像的初步分割结果；

步骤7、计算预分割结果与原始图像分割结果之间的互信息以及预分割结果与生成图像分割结果之间的互信息；

步骤8、采用梯度下降法对分割模型进行训练得到图像分割结果。

2.根据权利要求1所述的算法，其特征在于，步骤2具体包括：

生成对抗网络主要由生成器G和判别器D组成，生成器G主要用来接收噪声，然后生成接近真实图像分布的生成图像，判别器D用于判断数据是真实图像还是生成图像；

所述生成器G是一个5层的神经网络，将噪声向量输入生成器网络，生成器G将通过块函数进行非线性变换，直到张量映射到与真实图像相同的大小；在网络训练过程中通过从正态分布中抽样随机生成噪声向量z，p(z)表示噪声向量z的分布；

所述判别器D是一个4层的神经网络，它从图像张量开始，并对其进行变换，直到它返回单个数字即一维张量输出，根据输出对图像的真伪进行分类；

在训练过程中，将生成器G和判别器D串连在一起；在训练过程中，生成器G和判别器D交替学习，在训练生成器过程中需要将判别器设置为冻结即不可训练，此时判别器的权重不会更新，在训练判别器过程中需要将生成器设置为冻结，此时生成器的权重不会更新；最终达到纳什均衡，此时判别器D无法区分真实图像和生成图像，训练过程中的目标函数V(D，G)如下：

min_Gmax_DV(D，G)＝E_x～p(x)[log D(x)]+E_z～p(z)[log(1-D(G(z)))]#(1)

其中，E_x～p(x)[log D(x)]表示当x服从p(x)分布时log D(x)函数的期望，x表示原始图像，p(x)表示图像x的分布，D(x)表示图像x经判别器网络D判断得到图像x是真实图像的概率；E_z～p(z)[log(1-D(G(z)))]表示当z服从p(z)分布时log(1-D(G(z)))函数的期望，z表示输入到生成网络的噪声，p(z)表示噪声向量z的分布，G(z)表示噪声向量z经生成器网络G得到的与图像x相同大小的生成图像，D(G(z))表示生成图像G(z)经判别器网络D判断得到图像G(z)是真实图像的概率，1-D(G(z))表示生成图像G(z)是生成图像的概率；在网络训练过程中判别器D试图最大化它分辨数据是真实图像或生成图像的概率即max_D，生成网络G试图最小化判别器将其预测为假数据的概率即min_G。

3.根据权利要求1所述的方法，步骤4内所涉及的局部特征提取具体包括：

步骤4.1、利用卷积层对输入图像进行两次卷积操作；

步骤4.2、对卷积后的结果执行归一化和Relu操作；

步骤4.3、利于1*1的卷积核对图像进行第三次卷积操作，然后对卷积后的结果执行归一化和Relu操作；

步骤4.4、利用1*1的卷积核对步骤4.3的输出执行最后一次卷积操作得到输入图像的局部特征x_{Local_Pro}。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210808548.3/1.html，转载请声明来源钻瓜专利网。