[发明专利]面向深度迁移学习的去偏方法及其装置在审
申请号: | 202110649889.6 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113298254A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 陈晋音;陈奕芃;陈一鸣 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 深度 迁移 学习 偏方 及其 装置 | ||
本发明公开了一种面向深度迁移学习的去偏方法及其装置,包括:获取源域数据集和目标域数据集,提取类别标签和敏感属性标签;构建全连接神经网络作为迁移模型的教师模型,采用源域数据集优化教师模型的网络参数;固定参数优化的教师模型的前n层全连接层的网络参数作为特征提取器,并在教师模型的最后一层添加m层全连接层,形成迁移模型的学生模型,采用目标域数据集优化学生模型的网络参数;在参数优化的学生模型的特征提取器的输出添加注意力机制层,用于从特征提取器中的输出特征中提取敏感属性并确定敏感属性的权重;将敏感属性对应的特征向量与其他特征向量进行正交操作,以去除深度迁移学习的敏感属性带来的偏见,以实现预测结果的公平。
技术领域
本发明属于深度学习公平性领域,具体涉及一种面向深度迁移学习的去偏方法及其装置。
背景技术
为了获得更高的性能,深度学习模型变得越来越复杂。然而,从头训练这些复杂的模型需要大量的训练数据和计算资源。通常情况下,单个研究人员和小公司无法负担如此多的资源。
为了解决这一问题,研究者们提出了迁移学习。总体思路是让领先的公司从用户那里收集大量数据,并利用大量计算资源对复杂的深度学习模型进行预训练;然后,将预先训练好的模型发布给下游应用程序。到那时,个人研究人员和小公司不再需要从头开始训练他们复杂的深度学习模型。相反,他们可以使用预先训练的模型作为起点,并使用本地数据集定制他们自己的应用程序。一般来说,在迁移学习中,预先训练的模型被称为教师模型,下游模型被称为学生模型。
然而,迁移学习中预先训练的教师模型可能存在偏见,并将这种偏见传递并影响到下游的学生模型,例如,在在线广告中,所谓的预测供应商通过向广告商出售其预测(例如,某人X可能对产品Y感兴趣)获得利润,而数据所有者通过向预测供应商出售预测有用的数据集获得利润。因为预测供应商寻求最大化预测的准确性,它可能(有意或无意)使预测不公平地偏向某些群体或个人。
鉴于针对现有的迁移模型去偏方法的局限性以及迁移学习偏见存在的客观性,研究一种面向迁移学习的去偏方法。
发明内容
本发明的目的是提供一种面向迁移学习的去偏方法。通过引入注意力机制和正交化操作对模型进行去偏,从而实现模型预测结果的公平。
本发明实现上述发明目的所采用的技术方案如下:
第一方面,一种面向深度迁移学习的去偏方法,包括以下步骤:
获取源域数据集和目标域数据集,提取类别标签和敏感属性标签;
构建全连接神经网络作为迁移模型的教师模型,采用源域数据集优化教师模型的网络参数;
固定参数优化的教师模型的前n层全连接层的网络参数不变作为特征提取器,并在教师模型的最后一层添加m层全连接层,形成迁移模型的学生模型,采用目标域数据集优化学生模型的网络参数;
在参数优化的学生模型的特征提取器的输出添加注意力机制层,用于从特征提取器中的输出特征中提取敏感属性并确定敏感属性的权重;
将敏感属性对应的特征向量与其他特征向量进行正交操作,以去除深度迁移学习的敏感属性带来的偏见。
其中,源域数据集采用Credit数据集,目标域数据集采用Census数据集,敏感属性为性别属性。
优选地,所述类别标签采用one-hot编码。
优选地,所述教师模型采用由5层全连接层组成的全连接层神经网络,n为3,m为2。
优选地,所述教师模型采用SoftMax为激活函数对数据进行分类识别,训练过程的损失函数均使用交叉熵损失函数。
优选地,所述学生模型采用SoftMax为激活函数对数据进行分类识别,训练过程的损失函数均使用交叉熵损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110649889.6/2.html,转载请声明来源钻瓜专利网。