[发明专利]特征分箱方法、装置、设备及可读存储介质在审
申请号: | 202010747783.5 | 申请日: | 2020-07-29 |
公开(公告)号: | CN111898765A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 谭明超;马国强;范涛;陈天健;杨强 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 张志江 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 方法 装置 设备 可读 存储 介质 | ||
本申请公开了一种特征分箱方法、装置、设备及可读存储介质,所述特征分箱方法包括:接收各第二设备发送的样本特征极值和样本数量,并基于各样本特征极值和各样本数量,确定全局样本特征极值和全局样本数量,进而将全局样本特征极值发送至各第二设备,以供各第二设备基于全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量,进而接收各第二设备发送的第一样本数量和第二样本数量,并基于各第一样本数量、各第二样本数量和全局样本数量,确定分位点分布位置,进而基于分位点分布位置,确定目标分位点。本申请解决了联合多方进行特征分箱的方式会暴露各自的数据,无法做到隐私保护的技术问题。
技术领域
本申请涉及人工智能领域,尤其涉及一种特征分箱方法、装置、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
通常,在很多领域需要对特征进行分箱,例如,在机器学习中,特征分箱并基于分箱结果求变量的显著性等过程往往是特征工程的重要方法,比如,要考察特征与标签之间的相关程度时,iv(Information Value,信息价值)值往往是变量显著性的重要指标,可运用于特征选择之中。
目前,当待分箱特征的特征数据分布存放在多方,需要联合多方进行特征分箱时,各方采用互相发送特征数据的方式来进行联合特征分箱,但是,这种方式会互相暴露各自的数据,若需要对各方的数据进行隐私保护,则无法联合各方进行特征分箱。
发明内容
本申请的主要目的在于提供一种特征分箱方法、装置、设备及可读存储介质,旨在解决联合多方进行特征分箱的方式会暴露各自的数据,无法做到隐私保护的技术问题。
为实现上述目的,本申请提供一种特征分箱方法,所述特征分箱方法应用于第一设备,所述特征分箱方法包括:
接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
基于所述分位点分布位置,确定目标分位点。
可选地,所述基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置的步骤包括:
分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;
基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;
基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
可选地,所述基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置的步骤包括:
基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;
将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;
若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010747783.5/2.html,转载请声明来源钻瓜专利网。