[发明专利]基于联邦学习实现数据探索性分析处理的方法有效
申请号: | 202010571158.X | 申请日: | 2020-06-22 |
公开(公告)号: | CN111753319B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 黄智明;曾维 | 申请(专利权)人: | 上海富数科技有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 201802 上海市嘉定区科*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 联邦 学习 实现 数据 探索 分析 处理 方法 | ||
本发明涉及一种基于联邦学习实现数据探索性分析处理的方法,包括基于横向融合进行探索性分析的步骤具体包括以下处理过程:汇总单列的每个节点的信息;将各个节点的统计信息汇总至发起节点;判断是否需要投票计票,如果是,则投票器计算相关权重;否则,广播器将广播结果传输至参与节点;基于纵向融合进行探索性分析的步骤具体包括以下处理过程:汇总统计信息;对每个节点单列进行woe编码、归一化特征转化;在节点进行解密分析。采用了本发明的基于联邦学习实现数据探索性分析处理的方法,联邦学习是在满足数据隐私、安全和监管要求的前提下,联邦学习数据分散在各个节点中。且需要在不交换原始数据的前提下,探索数据的潜在规律。
技术领域
本发明涉及数据分析领域,尤其涉及数据隐私领域,具体是指一种基于联邦学习实现数据探索性分析处理的方法。
背景技术
联邦学习的虚拟数据集的构建方式:
1、横向融合(含对齐):
横向融合(横向联邦)的本质是样本的联合,适用于参与者间业态相同但触达客户不同,即特征重叠多,用户重叠少时的场景,比如不同地区的银行间,他们的业务相似(特征相似),但用户不同(样本不同)。
2、纵向融合(含对齐):
纵向融合(纵向联邦)的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,比如同一地区的商超和银行,他们触达的用户都为该地区的居民(样本相同),但业务不同(特征不同)。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足高效性、准确性、适用范围较为广泛)的基于联邦学习实现数据探索性分析处理的方法。
为了实现上述目的,本发明的基于联邦学习实现数据探索性分析处理的方法如下:
该基于联邦学习实现数据探索性分析处理的方法,其主要特点是,所述的方法包括以下步骤:
基于横向融合进行探索性分析的步骤具体包括以下处理过程:
(1-1)汇总单列的每个节点的信息,计算统计信息以及列之间的相关性和周期性;
(1-2)将各个节点的统计信息汇总至发起节点,在数据无交换的情况下获取信息,并通过计算获得相关信息,广播至所有参与节点;
(1-3)判断是否需要投票计票,如果是,则投票器计算相关权重;否则,广播器将广播结果传输至参与节点;
基于纵向融合进行探索性分析的步骤具体包括以下处理过程:
(2-1)汇总统计信息,收集各节点的统计信息;
(2-2)从各数据集中各取一列,对每个节点单列进行woe编码、归一化特征转化,加密后传输至数据请求方;
(2-3)在节点进行解密分析,利用现有的相关性分析算法对两列数据进行线性相关性分析。
较佳地,所述的步骤(1-3)的投票的步骤具体包括以下处理过程:
(1-3.1)每个节点广播自己的对这一列的周期性判断,并关联投票轮次,每台服务器统计选票;
(1-3.2)判断各个结果的数据是否超过阈值,如果是,则周期性存在;否则,周期性不存在。
较佳地,所述的步骤(2-3)还包括以下步骤:
判断样本量是否低于阈值,如果是,则误差较大,不进行线性相关;否则,继续步骤(2-3)。
较佳地,所述的步骤(1-1)的每个节点的信息包括近似中数、众数、缺失值、缺失值比例和均值。
较佳地,所述的方法还包括对数据进行探索分析的步骤,具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海富数科技有限公司,未经上海富数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010571158.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种二萜类化合物制备方法
- 下一篇:MEMS芯片及其制作方法、MEMS麦克风