[发明专利]一种特征变量的分析方法、装置、计算机设备及存储介质在审
申请号: | 202111254424.7 | 申请日: | 2021-10-27 |
公开(公告)号: | CN113934983A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 黄晨宇;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06F17/11;G06F21/62 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 杨晖琼 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 变量 分析 方法 装置 计算机 设备 存储 介质 | ||
本申请公开了一种特征变量的分析方法、装置、计算机设备及存储介质,属于数据分析处理技术领域。本申请先对不同客户端中存储的特征数据和特征标签进行分箱,然后计算特征数据的加权平均值,得到第一加权平均值,以及计算特征标签的加权平均值,得到第二加权平均值,基于第一加权平均值和第二加权平均值构建线性回归方程,基于线性回归方程计算目标特征变量的均方误差和总平方和,基于均方误差和总平方和计算目标特征变量的决定系数,并基于决定系数对目标特征变量进行评价。此外,本申请还涉及区块链技术,特征数据和特征标签可存储于区块链中。本申请可以在保护数据隐私的情况下实现多客户端联合的变量分析。
技术领域
本申请属于数据分析处理技术领域,具体涉及一种特征变量的分析方法、装置、计算机设备及存储介质。
背景技术
现有的联邦学习主要是针对建模的部分,但在实际过程中,由于数据特征量多,特征质量参差不齐导致模型训练速率较慢且效果不好。针对这一情况,传统的方法是在建模前对特征进行分析,在选取了有效的特征后再去进行建模可以拥有提升训练速率,提高模型准确率。
然而,现有的特征变量分析方法针对于特征或标签不在同一个客户端上时,通常需要将特征或标签传递到同一个客户端上,然后才能进行变量分析,但在联邦学习中,需要对数据隐私进行保护,直接传输数据特征或会违背联邦学习的隐私保护初衷,因此现有的变量分析方法直接应用于联邦学习时,存在数据泄露的风险,难以保证数据安全。
发明内容
本申请实施例的目的在于提出一种特征变量的分析方法、装置、计算机设备及存储介质,以解决现有的特征变量分析方法可能存在的数据泄露风险,难以保证数据安全的技术问题。
为了解决上述技术问题,本申请实施例提供一种特征变量的分析方法,采用了如下所述的技术方案:
一种特征变量的分析方法,包括:
对第一参与方中的特征数据进行分箱操作,得到数据特征集合;
对第二参与方中的特征标签进行分箱操作,得到特征标签集合;
计算所述数据特征集合中的特征数据的加权平均值,得到第一加权平均值;
计算所述特征标签集合中的特征标签的加权平均值,得到第二加权平均值;
基于所述第一加权平均值和所述第二加权平均值构建线性回归方程;
基于所述线性回归方程计算目标特征变量的均方误差和总平方和;
基于所述均方误差和所述总平方和计算所述目标特征变量的决定系数,并基于所述决定系数对所述目标特征变量进行评价。
进一步地,所述对第二参与方中的特征标签进行分箱操作,得到特征标签集合包括:
获取所述特征数据的分箱信息,并将所述分箱信息发送至所述第二参与方中;
基于所述分箱信息对所述对第二参与方中的特征标签进行分箱操作,得到特征标签集合。
进一步地,所述计算所述数据特征集合中的特征数据的加权平均值,得到第一加权平均值包括:
基于预设的特征权重算法计算所述数据特征集合中每一个特征数据的特征权重,得到第一权重;
基于所述第一权重对所述数据特征集合中特征数据进行加权求和,得到第一加权结果;
计算第一加权结果的平均值,得到所述第一加权平均值。
进一步地,所述计算所述特征标签集合中的特征标签的加权平均值,得到第二加权平均值包括:
基于预设的特征权重算法计算所述特征标签集合中每一个特征标签的特征权重,得到第二权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111254424.7/2.html,转载请声明来源钻瓜专利网。