[发明专利]一种基于匿名化数据的纵向逻辑回归建模方法有效
申请号: | 202210573495.1 | 申请日: | 2022-05-25 |
公开(公告)号: | CN114662156B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 裴阳;毛仁歆;刘文博;马煜翔;刘洋 | 申请(专利权)人: | 蓝象智联(杭州)科技有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/18;G06Q40/02 |
代理公司: | 杭州天麟知识产权代理事务所(特殊普通合伙) 33374 | 代理人: | 占宇 |
地址: | 311100 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 匿名 数据 纵向 逻辑 回归 建模 方法 | ||
本发明公开了一种基于匿名化数据的纵向逻辑回归建模方法。它包括以下步骤:发起方、参与方分别构建同样的纵向逻辑回归模型并初始化;发起方、参与方联合计算出每个匿名样本对应的预测值Y,发起方得到预测值分片YA,参与方得到预测值分片YB;发起方、参与方分别计算残差分片ΔyA、残差分片ΔyB;发起方、参与方各自计算自身持有的数据特征分片对应的权重系数的最新值并赋值;重复上述步骤T次,完成纵向逻辑回归模型建模。本发明可以使用秘密分享密文状态下的数据特征分片,在建模过程中没有泄露中间结果,大大提高了建模安全性。
技术领域
本发明涉及逻辑回归建模技术领域,尤其涉及一种基于匿名化数据的纵向逻辑回归建模方法。
背景技术
近些年来,随着云计算以及大数据技术的成熟以及普及,用户无时不刻都在产生数据,而这些数据如果被滥用,对个人隐私、社会安全将会产生极大的危害。企业和机构由于隐私政策限制,诞生了“数据孤岛”,即单独的公司或者机构只拥有部分数据。联邦学习概念应运而生,旨在解决如何在保护数据隐私的前提下,发挥数据作为机器学习建模的“原料”作用。而逻辑回归模型作为基础且重要的机器学习模型,如何去构建联邦学习下的安全逻辑回归模型也成为了关注的焦点。在最新发布的个人信息保护法中,再次强调了个人信息的重要性,除匿名化数据外敏感数据的使用都需要受到监管。
逻辑回归(logistic回归)又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测,金融风控等领域。现有的纵向逻辑回归建模方法在建模过程中会泄漏部分中间计算结果(如:预测值、残差等),存在安全隐患。隐匿集合求交共享数据是在参与双方不泄露任何额外信息的情况下,得到双方持有ID的交集,并将各自ID对应的数据特征通过秘密分享的加法共享给另一方,双方各自保留秘密分享密文状态下的数据特征分片,即不泄露双方的ID信息,也不泄露ID对应的数据特征信息。然而,现有的纵向逻辑回归建模方法无法使用秘密分享密文状态下的数据特征分片。
发明内容
本发明为了解决上述技术问题,提供了一种基于匿名化数据的纵向逻辑回归建模方法,其可以使用秘密分享密文状态下的数据特征分片,在建模过程中没有泄露中间结果,大大提高了建模安全性。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种基于匿名化数据的纵向逻辑回归建模方法,用于金融机构联合风控建模,发起方持有K个匿名样本对应的样本数据集XA及标签值分片yA,样本数据集XA中包含n个秘密分享密文状态下的数据特征分片,参与方持有相同的K个匿名样本对应的样本数据集XB及标签值分片yB,样本数据集XB中包含n个秘密分享密文状态下的数据特征分片,其特征在于,包括以下步骤:
S1:发起方、参与方分别构建同样的纵向逻辑回归模型,初始化样本数据集XA中每个数据特征分片对应的权重系数、样本数据集XB中每个数据特征分片对应的权重系数;
S2:发起方、参与方联合计算出每个匿名样本对应的预测值Y,发起方得到预测值分片YA,参与方得到预测值分片YB,Y=YA+YB;
S3:发起方将每个匿名样本对应的标签值分片yA减去对应的预测值分片YA得到对应的残差分片ΔyA,参与方将每个匿名样本对应的标签值分片yB减去对应的预测值分片YB得到对应的残差分片ΔyB;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝象智联(杭州)科技有限公司,未经蓝象智联(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210573495.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置