[发明专利]特征筛选方法、设备、存储介质及程序产品在审
申请号: | 202210084862.1 | 申请日: | 2022-01-25 |
公开(公告)号: | CN114444592A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 范昊;杨恺;王虎;黄志翔;彭南博 | 申请(专利权)人: | 京东科技控股股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G06F17/18;G06F17/15 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 马明明;刘芳 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 筛选 方法 设备 存储 介质 程序 产品 | ||
本发明实施例提供一种特征筛选方法、设备、存储介质及程序产品,该方法包括对联邦学习的各参与方提供的多个特征进行采样,获得多个特征子集,针对每个特征子集,计算所述特征子集的多个特征筛选指标,针对每个特征子集的每个特征筛选指标,计算并得到所述特征筛选指标对应的分布函数曲线,并根据所述分布函数曲线确定所述特征筛选指标对应于所述特征子集的子集筛选阈值,根据各所述子集筛选阈值,确定各所述特征筛选指标分别对应的特征筛选阈值,根据各所述特征筛选指标分别对应的特征筛选阈值,对各特征子集的特征进行筛选,获得最终的特征筛选结果。本发明实施例可以提高特征筛选的合理性。
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种特征筛选方法、设备、存储介质及程序产品。
背景技术
联邦学习又名联邦机器学习,联合学习,联盟学习。联邦学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护和数据安全的要求下,进行数据使用和机器学习建模,实现数据共享。在联邦学习的业务落地中筛选出合适的特征是提高模型的整体效果的关键点。
在现有技术中,通常采用手动设定特征阈值的方式,来进行特征筛选,例如在使用信息值(Information Value,IV)进行筛选时,需要建模并人工指定IV的阈值,从而筛选出IV值大于阈值的那些特征。
然而,上述特征筛选方式过分依赖于主观的经验,且在联邦建模中不同参与方的建模人员对特征筛选的经验和认知不尽相同,因此特征筛选的合理性无法得到保证,进而会对联邦学习建模的整体效果造成影响。
发明内容
本发明实施例提供一种特征筛选方法、设备、存储介质及程序产品,以提高特征筛选的合理性。
第一方面,本发明实施例提供一种特征筛选方法,包括:
对联邦学习的各参与方提供的多个特征进行采样,获得多个特征子集;所述特征不包括实际名称,仅包括标识信息;
针对每个特征子集,计算所述特征子集的多个特征筛选指标;
针对每个特征子集的每个特征筛选指标,计算并得到所述特征筛选指标对应的分布函数曲线,并根据所述分布函数曲线确定所述特征筛选指标对应于所述特征子集的子集筛选阈值;
根据各所述子集筛选阈值,确定各所述特征筛选指标分别对应的特征筛选阈值;
根据各所述特征筛选指标分别对应的特征筛选阈值,对各特征子集的特征进行筛选,获得最终的特征筛选结果。
第二方面,本发明实施例提供一种特征筛选设备,包括:
采样模块,用于对联邦学习的各参与方提供的多个特征进行采样,获得多个特征子集;
指标计算模块,用于针对每个特征子集,计算所述特征子集的多个特征筛选指标;
子集筛选阈值确定模块,用于针对每个特征子集的每个特征筛选指标,计算并得到所述特征筛选指标对应的分布函数曲线,并根据所述分布函数曲线确定所述特征筛选指标对应于所述特征子集的子集筛选阈值;
特征筛选阈值确定模块,用于根据各所述子集筛选阈值,确定各所述特征筛选指标分别对应的特征筛选阈值;
筛选模块,用于根据各所述特征筛选指标分别对应的特征筛选阈值,对各特征子集的特征进行筛选,获得最终的特征筛选结果。
第三方面,本发明实施例提供一种特征筛选设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210084862.1/2.html,转载请声明来源钻瓜专利网。