[发明专利]一种针对人脸深度聚类的多层次去偏方法在审

申请号：	202210921862.2	申请日：	2022-08-02
公开（公告）号：	CN115546523A	公开（公告）日：	2022-12-30
发明（设计）人：	陈晋音;曹志骐;郑海斌	申请（专利权）人：	浙江工业大学
主分类号：	G06V10/762	分类号：	G06V10/762;G06V10/82;G06V40/16;G06N3/04;G06N3/06;G06N3/08
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	楼明阳
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对深度多层次偏方
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种针对人脸深度聚类的多层次去偏方法，包括如下步骤：

(1)获取人脸数据集，并且定义人脸数据集中的人脸样本为X＝{x₁,x₂,…,x_i,…,x_n}，人脸样本对应的标签为Y＝{y₁,y₂,…,y_i,…y_n}，总样本数划分训练集和测试集，其中每个人脸样本图像定义为(l,h,c)分别指长、高以及通道数；

(2)对获取的人脸数据集基于数据增强的方法进行预处理，来扩充数据集；

(3)搭建深度聚类模型；

设计深度表征学习模型和聚类模型，深度表征学习模型作为特征提取器对人脸数据的特征进行提取，聚类模型则是用于特征的分类，通过反馈机制实现深度聚类；

(3-1)设计深度表征学习模型；

深度表征学习模型是基于自编码器技术实现，深度表征学习模型对输入的人脸样本进行特征提取以及对相应的样本标签，自编码器由编码器f_r和解码器g_u两个网络组成，通过对输入样本进行重建来学习样本特征a_i＝f_r(x_i)，损失函数为：

其中，x_i是人脸样本，n是指给定样本x_i的个数，f_r是编码器，即将高维度的输入人脸样本编码成低维度的隐变量a_i，r则是编码器f_r的权重参数，g_u是解码器，即将编码过后的隐变量a_i解码为高维度的人脸样本x_i，u则是解码器g_u的权重参数，则是指输入人脸样本x_i与经过自编码器编解码之后的人脸样本x_i之间的距离度量；

(3-2)设计聚类模型；

聚类模型是基于K-Means聚类算法实现，聚类模型通过上一级深度表征学习模型提取到的特征将人脸样本进行分组，K-Means是通过最小化类内均方误差实现对样本的划分，损失函数为：

其中，x_i是人脸样本，n是指给定样本x_i的个数，μ指的是聚类的中心，K是指聚类中心μ的初始化个数，f_w(·)是以w为参数的神经网络映射，即将人脸样本x_i映射到新的空间，w是指神经网络的权重参数，是指映射到新空间的人脸样本x_i与聚类中心μ_j之间的距离，s是指聚类的标签，s_ij则是指样本i是否属于类别j，是为1，否为0；

(3-3)合成深度聚类模型；

将深度表征学习模型的损失函数L_n与聚类模型损失函数L_c相结合，得到合成深度聚类模型的最终损失函数：

L_nc＝αL_n+βL_c (3)

其中，α是深度表征学习模型损失函数L_n的超参数，α≥0，β是聚类模型损失函数L_c的超参数，β0；

(4)深度表征学习去偏，基于均值滤波对深度表征学习模型中的偏见神经元进行去偏；

(4-1)查找深度表征学习模型中的偏见神经元，区分正常神经元和偏见神经元，并标记偏见神经元；

(4-2)基于k-近邻平均的偏见神经元权值修改；取偏见神经元附近的m个神经元的权值，并将这些神经元的权值求和取平均最后再赋值给偏见神经元；

其中，m表示偏见神经元权值的周围正常神经元的个数，w_j是指偏见神经元周围的第j个正常神经元的权值；

(4-3)将赋予新权值的偏见神经元代入原深度表征学习模型加以训练得到去偏后的新模型；

(4-4)重复步骤(4-1)、(4-2)和(4-3)直到所有神经元的AUC值小于预设的阈值，深度表征学习模型去偏完成；

(5)聚类算法去偏，基于生成式对抗网络对聚类算法K-Means进行数据去偏，搭建去偏生成网络和去偏判别网络，设计针对聚类算法去偏的损失函数；

(5-1)构建去偏判别网络，通过加入KL散度惩罚项对原有的去偏判别网络损失函数进行优化实现对聚类算法的去偏；

损失函数：

其中，x_i是人脸数据集{x₁,x₂,x₃,…,x_n}中的真实样本，i指该组样本中的第i个样本，n指的是这一组人脸数据集中的样本总个数，D(x_i)是指真实人脸样本经去偏判别网络处理后得到的一个介于(0,1)的值，D(·)是sigmoid函数，即x'_i则是由去偏生成网络生成的人脸样本数据{x'₁,x'₂,x'₃,…,x'_n}，x'_i＝G(z_i)，D(x'_i)是指生成人脸样本经去偏判别网络处理后得到的介于(0,1)的值，KL(x_i||x'_i)指的是x_i与x'_i的KL散度，λ₁则指超参数；

梯度函数：

其中，θ_d是去偏判别网络中需要优化的参数，η指的是学习率，即每次更新的θ_d的步长，是指目标函数在整个数据集上对参数θ_d计算梯度；

(5-2)构建去偏生成网络，通过加入KL散度惩罚项对原有的去偏生成网络损失函数进行优化实现对聚类算法的去偏；

损失函数：

其中，z_i是用于去偏生成网络生成样本，从分布中采样一批噪声样本{z_i,z₂,z₃,…,z_n}，i指该批样本中的第i个样本，n指的是这批采样到的噪声样本的总个数，G(z_i)是指由去偏生成网络生成的人脸样本，D(G(z_i))是指生成样本经去偏判别网络处理后得到的介于(0,1)的值，KL(x_i||x'_i)指的是x_i与x'_i的KL散度，λ₂则指超参数；