[发明专利]联合逻辑回归建模方法、装置以及终端在审

申请号：	201910515047.4	申请日：	2019-06-13
公开（公告）号：	CN112085206A	公开（公告）日：	2020-12-15
发明（设计）人：	宋传园;冯智;张宇	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京市铸成律师事务所 11313	代理人：	王珺;徐瑞红
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	联合逻辑回归建模方法装置以及终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提出一种联合逻辑回归建模方法、装置以及终端，方法包括：对具有标签值的第一样本数据集和第二样本数据集按照标识进行求交运算，得到具有标签值的第一数据交集和第二数据交集；根据第一数据交集、第一初始化模型参数、第二数据交集、第二初始化模型参数，计算残差；根据残差和第一数据交集，计算第一梯度值；根据加密残差和第二数据交集计算密文梯度和，对密文梯度和解密，得到第二梯度值；根据第一梯度值和第二梯度值建立联合逻辑回归模型。在联合来自两方数据进行联合建模过程中，双方不会泄露各自隐私数据。不仅促进了数据流通，打破数据孤岛，充分发挥数据价值，还可以对数据生态系统进行有效的隐私保护。

技术领域

本发明涉及机器学习技术领域，尤其涉及一种联合逻辑回归建模方法、装置以及终端。

背景技术

机器学习最通俗的解释就是让机器学会决策。分类和回归是机器学习可以解决两大主要问题，从预测值的类型上看，连续变量预测的定量输出称为回归。例如：预测明天多少度，是一个回归任务。离散变量预测的定性输出称为分类。例如：预测明天阴、晴、雨，就是一个分类任务。逻辑回归由于存在易于实现、解释性好以及容易扩展等优点，被广泛应用于点击率预估(CTR)、计算广告 (CA)以及推荐系统(RS)等任务中。逻辑回归虽然名字叫做回归，但实际上却是一种分类学习方法。不是去拟合每个数据点，而是把不同类别的样本区分开来。

目前，在建逻辑回归模型，会利用多方的企业、私人或医疗信息等敏感数据，其中会将一方的数据进行主成分分析和脱敏，将敏感数据做一定的处理，然后交给另一方进行建模计算。脱敏和主成分分析仅能够在一定程度上保护用户的隐私数据安全，通过一些频度攻击方法可以反推出脱敏前的数据。所以，缺乏不泄漏双方隐私数据的逻辑回归建模。

发明内容

本发明实施例提供一种联合逻辑回归建模方法、装置以及终端，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种联合逻辑回归建模方法，包括：

对具有标签值的第一样本数据集和第二样本数据集按照标识进行求交运算，得到具有标签值的第一数据交集和第二数据交集；

根据所述第一数据交集、第一初始化模型参数、所述第二数据交集、第二初始化模型参数，计算残差；

根据所述残差和所述第一数据交集，计算第一梯度值；

根据加密残差和所述第二数据交集计算密文梯度和，对所述密文梯度和解密，得到第二梯度值；

根据所述第一梯度值和所述第二梯度值建立联合逻辑回归模型。

在一种实施方式中，根据所述第一数据交集、第一初始化模型参数、所述第二数据交集以及第二初始化模型参数，计算残差，包括：

第一端根据所述第一数据交集中的第一特征值向量和所述第一初始化模型参数的乘积，得到第一残差中间值；

所述第一端接收来自第二端的第二残差中间值，所述第二残差中间值为所述第二端根据所述第二数据交集中的第二特征值向量和所述第二初始化模型参数的乘积计算得到的；

所述第一端根据所述第一残差中间值和所述第二残差中间值之和，生成残差中间值，并将所述残差中间值输入激活函数得到预测值，计算所述预测值与所述标签值的差值，得到所述残差。