[发明专利]保护隐私的同时在分布式客户数据上的机器学习在审
申请号: | 201911042526.5 | 申请日: | 2019-10-30 |
公开(公告)号: | CN111931223A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | P.埃伯莱因;V.德里森 | 申请(专利权)人: | SAP欧洲公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06N20/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 德国瓦*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 保护 隐私 同时 分布式 客户 数据 机器 学习 | ||
1.一种计算机实施的方法,包括:
在训练代理处接收对训练机器学习ML模型的请求;
由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,通过数据科学模式访问的匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供;并且
向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。
2.根据权利要求1所述的计算机实施的方法,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供对匿名化数据的请求;
从多个数据源的每个单独数据源接收匿名化数据;并且
将匿名化数据存储在由训练代理维护的高速缓存中,其中,向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
3.根据权利要求1所述的计算机实施的方法,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供模型;
从多个数据源的每个单独数据源接收更新的模型,其中,更新的模型由单独数据源使用在单独数据源处运行的机器学习模型训练并且使用对于单独数据源本地地可用的匿名化数据创建;
对于多个数据源的其它单独数据源重复提供和接收;并且
由训练代理向数据供应商提供更新的模型。
4.根据权利要求1所述的计算机实施的方法,进一步包括:
基于生产数据的生产数据模式创建数据科学模式,其中,数据科学模式提供对生产数据的只读访问,并且其中,数据科学模式提供限于对生产数据中的非个性化数据的访问,而不复制非个性化数据;并且
使用数据科学模式以提供对生产数据的访问。
5.根据权利要求4所述的计算机实施的方法,进一步包括:
向每个单独数据源处的用户提供对数据科学模式的访问用于查看。
6.根据权利要求2所述的计算机实施的方法,进一步包括:
缩放匿名化数据中的数值以移除可追溯到单独数据源的数值。
7.根据权利要求1所述的计算机实施的方法,进一步包括:
将生产数据中的字段映射到全局唯一标识符GUID以移除可追溯到单独数据源的值;并且
将GUID与匿名化数据存储。
8.根据权利要求1所述的计算机实施的方法,进一步包括:
创建用于接收生产数据的子集的流水线;
读取生产数据用于对于训练ML模型需要的训练数据;
将训练数据存储在对于流水线可访问的数据库表中;并且
使用数据科学模式提供对数据库表的访问。
9.一种存储一个或多个指令的非暂时性计算机可读介质,指令由计算机系统可运行以执行操作,操作包括:
在训练代理处接收对训练机器学习ML模型的请求;
由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据,通过数据科学模式访问的匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供;并且
向数据供应商提供对匿名化数据的访问,用于使用匿名化数据训练ML模型。
10.根据权利要求9所述的非暂时性计算机可读介质,其中,获得匿名化数据包括:
向多个数据源的每个单独数据源提供对匿名化数据的请求;
从多个数据源的每个单独数据源接收匿名化数据;并且
将匿名化数据存储在由训练代理维护的高速缓存中,其中,向数据供应商提供对匿名化数据的访问包括提供对高速缓存的访问。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于SAP欧洲公司,未经SAP欧洲公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911042526.5/1.html,转载请声明来源钻瓜专利网。