[发明专利]特征值分箱方法、系统及装置有效
申请号: | 202010329687.9 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111242244B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 张文彬 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征值 方法 系统 装置 | ||
本说明书中的实施例提供了特征值分箱方法、系统及装置。在联合分箱过程中,特征方的设备使用样本ID记录特征值的分箱情况,将获得的初始样本ID分箱序列发送给标签方的设备。标签方的设备基于接收到的初始样本ID分箱序列继续进行有监督分箱,获得满足终止分箱条件的目标样本ID分箱序列,并将目标样本ID分箱序列反馈给特征方的设备。最终,特征方的设备可将目标样本ID分箱序列转化为目标特征值分箱序列,即完成对样本集中各样本特征值的分箱,以便后续的模型训练。如此,可以有效保护特征方和标签方各自的数据隐私。
技术领域
本说明书实施例涉及信息技术领域,特别涉及特征值分箱方法、系统及装置。
背景技术
数据分箱(简称分箱)是一种对多个数据进行分组的技术,每个分组可称为一个“分箱”。在特征工程中,通过对样本集中的特征值进行分箱,可以将特征离散化,能够带来加快模型的迭代、训练出的模型对异常特征值表现出较强的鲁棒性、提升模型的表达能力、降低模型过拟合的风险等优势。
在一些有监督分箱方案中,需要同时用到特征数据和标签数据。然而,特征数据和标签数据可能分布于多个数据提供方,例如,一方持有数特征数据而另一方持有标签数据。分箱时,各方均不希望自身数据中的隐私发生泄露。因此,希望提供一种可以有效保护各方数据隐私的联合分箱方案。
发明内容
本说明书实施例之一提供一种特征值分箱方法,其中,所述方法由特征方的设备执行,特征方持有样本集中各样本的特征值,所述方法包括:基于所述样本集中各样本的特征值,获得初始样本ID分箱序列;初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;将所述初始样本ID分箱序列发送给标签方的设备,标签方持有所述样本集中各样本的标签,以使:标签方的设备基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;接收来自标签方的设备的目标样本ID分箱序列;基于所述目标样本ID分箱序列获得目标特征值分箱序列。
本说明书实施例之一提供一种特征值分箱系统,其中,所述系统在特征方的设备上实现,特征方持有样本集中样本的特征值,所述系统包括:初始分箱模块,用于基于所述样本集中各样本的特征值,获得初始样本ID分箱序列;初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;第一发送模块,用于将所述初始样本ID分箱序列发送给标签方的设备,标签方持有所述样本集中各样本的标签,以使:标签方的设备基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;第一接收模块,用于接收来自标签方的设备的目标样本ID分箱序列;目标特征值分箱序列获得模块,用于基于所述目标样本ID分箱序列获得目标特征值分箱序列。
本说明书实施例之一提供特征值分箱装置,其中,包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如本说明书任一实施例所述的由特征方的设备执行的特征值分箱方法。
本说明书实施例之一提供一种特征值分箱方法,其中,所述方法由标签方的设备执行,标签方持有样本集中样本的标签,所述方法包括:接收来自特征方的设备的初始样本ID分箱序列,特征方持有样本集中各样本的特征值,初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;将所述目标样本ID分箱序列发送给特征方的设备。
本说明书实施例之一提供一种特征值分箱系统,其中,所述系统在标签方的设备上实现,标签方持有样本集中样本的标签,所述系统包括:第二接收模块,用于接收来自特征方的设备的初始样本ID分箱序列,特征方持有样本集中各样本的特征值,初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;目标分箱模块,用于基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;第二发送模块,用于所述目标样本ID分箱序列发送给特征方的设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010329687.9/2.html,转载请声明来源钻瓜专利网。