[发明专利]保护隐私的同时在分布式客户数据上的机器学习在审

申请号：	201911042526.5	申请日：	2019-10-30
公开（公告）号：	CN111931223A	公开（公告）日：	2020-11-13
发明（设计）人：	P.埃伯莱因;V.德里森	申请（专利权）人：	SAP欧洲公司
主分类号：	G06F21/62	分类号：	G06F21/62;G06N20/00
代理公司：	北京市柳沈律师事务所 11105	代理人：	邵亚丽
地址：	德国瓦***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	保护隐私同时分布式客户数据机器学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

计算机实施的系统和计算机实施的方法包括以下。在训练代理处接收对训练机器学习ML模型的请求。用于训练模型的匿名化数据由训练代理从多个数据源的每个单独数据源获得。通过数据科学模式访问匿名化数据，匿名化数据由来自每个单独数据源的生产数据的敏感信息的匿名化提供。对匿名化数据的访问被提供给数据供应商，用于使用匿名化数据训练ML模型。

技术领域

本公开涉及机器学习。

背景技术

当使用生产数据例如而不是制造的测试数据时，机器学习技术可以提供改进的结果。然而，生产数据可能包括是私人的或敏感的信息。受益于机器学习技术的客户，诸如公司或企业，可能具有关于提供私人或敏感信息的担心。私人信息可以包括例如个人可识别信息(personally identifiable information，PII)，诸如姓名、地址、电话号码、帐号、和计算机凭证。敏感信息可以包括例如账户余额、其它数字量或测量、和人口统计信息。作为结果，客户避免向创建模型的供应商提供他们的数据，因为这些数据可能包含隐私相关或一般敏感的信息。

发明内容

本公开描述了用于在维护对隐私的最小影响的同时在分布式客户数据上执行机器学习的技术。在实施方式中，计算机实施的方法包括：在训练代理处接收对训练机器学习模型ML的请求；由训练代理从多个数据源的每个单独数据源获得用于训练模型的匿名化数据，其中通过匿名化来自每个单独数据源的生产数据的敏感信息来提供通过数据科学模式访问的匿名化数据；并且向数据供应商提供对匿名化数据的访问，用于使用匿名化数据训练ML模型。

所描述的主题可以使用以下各项来实施：计算机实施的方法；存储计算机可读指令以执行计算机实施的方法的非暂时性计算机可读介质；和包括一个或多个计算机存储设备的计算机实施的系统，该一个或多个计算机存储设备可互操作地与一个或多个计算机耦合，并且具有存储指令的有形的、非暂时性机器可读介质，当由一个或多个计算机运行时，该指令执行计算机实施的方法/存储在非暂时性计算机可读介质上的计算机可读指令。

本说明书中描述的主题可以实施为实现以下优点中的一个或多个。第一，真实的生产数据可以用于训练模型而不损害私人或敏感信息，增加用于客户的数据隐私。第二，可以创建使用不同客户的数据的模型训练服务，而客户不需要将其数据复制到供应商数据库。第三，真实的生产数据的使用可以改进模型的性能和准确性，因为生成的数据可能无法提供足够的结果。第四，机器学习模型可以为基于个人基础的分布式客户创建。第五，用于训练模型的单独客户数据不能追溯回到数据源，诸如单独个人。

在具体实施方式、权利要求、和附图中阐述了本说明书的主题的一个或多个实施方式的细节。从具体实施方式、权利要求、和附图，主题的其它特征、方面、和优点对于本领域普通技术人员将变得显而易见。

附图说明

图1是示出根据本公开的实施方式的预处理系统的示例的框图。

图2是示出根据本公开的实施方式的使用预处理系统的模型训练系统的示例的框图。

图3A和图3B是共同地示出根据本公开的实施方式的模型训练系统的数据到模型变体的示例的框图。

图4A和图4B是共同地示出根据本公开的实施方式的模型训练系统的模型到数据变体的示例的框图。

图5是示出根据本公开的实施方式的用于使用训练代理来代理用于模型的机器学习训练的匿名化数据的计算机实施的方法的示例的流程图。

图6是示出根据本公开的实施方式的用于提供与所描述的算法、方法、功能、过程、流程、和程序相关联的计算功能性的计算机实施的系统的示例的框图。

各种附图中的相同参考标号和名称指示相同元件。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载