[发明专利]联邦特征选择方法、装置、计算机设备和存储介质在审
申请号: | 202111004505.1 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113807415A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 王春凯;徐健;冯键 | 申请(专利权)人: | 中国再保险(集团)股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/60;G06N20/00 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 孙岩;朱五云 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联邦 特征 选择 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种联邦特征方法、装置、计算机设备和存储介质。所述方法包括:获取输入的第一样本;将第一样本ID与本地已存的第二样本ID求交,得到共有ID;通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;对共有ID样本进行特征选择,得到目标数据;对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。通过预设联邦特征选择则策略保证特征选择过程的安全性以及隐私性,并通过对目标数据特征的迭代优化,提高了联邦特征之间的相关性,进一步提高了联邦特征的准确度。
技术领域
本申请涉及数据挖掘技术领域,特别是涉及一种联邦特征选择方法、装置、计算机设备和存储介质。
背景技术
数据是机器学习的基础。而在大多数行业中,由于行业竞争、隐私安全等问题、数据常常是以孤岛的形式存在的,甚至即使是在同一个公司的不同部门之间实现数据集中整合也面临着重重阻力。同时,对用户数据隐私和安全管理的保护日趋严格。
针对数据孤岛和安全隐私,目前已有基于联邦学习的方法来解决。
然而,目前的联邦特征的准确度不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高联邦特征准确度的联邦特征选择方法、装置、计算机设备和存储介质。
第一方面,提供了一种联邦特征选择方法,该方法包括:
获取输入的第一样本;
将第一样本ID与本地已存的第二样本ID求交,得到共有ID;
通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本;
对共有ID样本进行特征选择,得到目标数据;
对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征。
在其中一个实施例中,通过预设联邦特征选择策略在第一样本和第二样本中获取共有ID样本,包括:根据参与方的个数确定联邦特征选择规则;根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本。
在其中一个实施例中,参与方的数量为至少两个,第一样本为基于可公开验证秘密选择规则获取、且采用预设加密算法以及加密参数加密的公开验证加密样本,预设加密算法以及加密参数由参与方共有协议确定;
相应的,根据参与方的个数确定联邦特征选择规则,根据联邦特征选择规则在第一样本和第二样本中获取共有ID样本,包括:若参与方的数量为两个,则根据可公开验证秘密选择规则从公开验证加密样本中获取第一共有ID样本;从第二样本中获取第二共有ID样本;将第一共有ID样本与第二共有ID样本进行合并,得到共有ID样本。
在其中一个实施例中,参与方的数量为至少两个,第一样本为基于可验证密钥分享选择规则以及多项式系数的承诺获取的密钥分享加密样本;该方法还包括:若参与方的数量大于两个,则根据基于可验证密钥分享选择规则获取密钥分片以及多项式系数的承诺;当根据密钥分片以及多项式系数的承诺验证多项式等式成立时,将密钥分片以及多项式系数的承诺发送至联邦协调方;接收联邦协调方发送的共有ID样本;其中,共有ID样本是协调方根据所有参与方验证通过的密钥分片以及多项式系数的承诺从密钥分享加密样本中确定的。
在其中一个实施例中,对目标数据进行特征迭代优化,直至特征迭代优化结果满足预设数据特征规则,得到联邦特征,包括:计算目标数据的特征值;将特征值与预设数据特征规则进行比较,当特征值不满足预设数据特征规则,则对目标数据进行相关性分析,得到目标相关性特征;根据目标相关性特征对目标数据进行特征选择,并计算选择后数据的特征值,直至选择后数据的特征值满足预设数据特征规则,得到联邦特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国再保险(集团)股份有限公司,未经中国再保险(集团)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111004505.1/2.html,转载请声明来源钻瓜专利网。