[发明专利]用于预测模型的数据泛化在审

专利信息
申请号: 202010783314.9 申请日: 2020-08-06
公开(公告)号: CN112347322A 公开(公告)日: 2021-02-09
发明(设计)人: G·埃佐夫;A·法尔卡什;A·高登斯特恩;R·施梅尔金;M·G·莫夫尔 申请(专利权)人: 国际商业机器公司
主分类号: G06F16/906 分类号: G06F16/906;G06K9/62;G06N3/04
代理公司: 中国贸促会专利商标事务所有限公司 11038 代理人: 郑宗玉
地址: 美国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 预测 模型 数据 泛化
【说明书】:

用于预测模型的数据泛化。用于预测模型的数据泛化的方法、装置和产品。该方法包括:基于所标记的数据集,确定多个桶,多个桶中的每个桶具有相关联的标签;确定多个聚类,将相同桶中的相似实例进行分组;基于多个聚类,确定包括泛化特征集合的替选特征集合,其中每个泛化特征对应于多个聚类中的聚类,其中对应于聚类的泛化特征指示被映射到对应聚类的实例;获得第二实例;确定泛化的第二实例,泛化的第二实例包括对第二实例的替选特征集合的评估;以及基于泛化的第二实例,确定第二实例的标签。

技术领域

本公开总体上涉及对数据进行泛化,并且尤其涉及使用聚类对用于预测模型的数据进行泛化。

背景技术

数据最小化可以是指将个人信息的收集限制为与实现特定目的直接相关并且为实现特定目的所需要的信息的实践。随着公司和组织开始理解数据的力量,并且随着数据变得更加无处不在并且更易于收集,分析师面临大量的数据。有一段时间,人们的冲动是无限期地保存所有这些数据。随着智能电话、物联网(IoT)设备等的快速采用,组织面临越来越多的方式来收集越来越多种类的数据,包括尤其是私人的、个人可识别的数据。数据管理员现在不再保存所有数据,而是采用数据最小化策略,只保留相关和需要的数据。

发明内容

所公开的主题的一个示例性实施例是一种方法,包括:获得所标记的数据集,其中所标记的数据集包括多个实例及其标签,其中每个实例包括对特征集合的评估;基于标签,确定多个桶,所述多个桶中的每个桶具有相关联的标签,其中每个桶将来自所标记的数据集中的具有在与桶的相关联的标签的相似性阈值之内的标签的实例进行分组;确定多个聚类,其中每个聚类包括由相同桶包括的多个实例,其中所述确定多个聚类是基于对实例的特征集合的评估,由此将相似的实例分组到聚类中;基于所述多个聚类,确定包括泛化特征集合的替选特征集合,其中所述泛化特征集合中的每个泛化特征对应于所述多个聚类中的聚类,其中对应于聚类的泛化特征指示作为对应聚类的成员的实例;获得第二实例;确定泛化的第二实例,其中泛化的第二实例包括对第二实例的替选特征集合的评估;以及基于泛化的第二实例,确定第二实例的标签。

所公开的主题的另一示例性实施例是一种计算机程序产品,包括保存程序指令的非暂时性计算机可读存储介质,所述程序指令在被处理器读取时使所述处理器执行:获得所标记的数据集,其中所标记的数据集包括多个实例及其标签,其中每个实例包括对特征集合的评估;基于标签,确定多个桶,所述多个桶中的每个桶具有相关联的标签,其中每个桶将来自所标记的数据集中的具有在与桶的相关联的标签的相似性阈值之内的标签的实例进行分组;确定多个聚类,其中每个聚类包括由相同桶包括的多个实例,其中所述确定多个聚类是基于对实例的特征集合的评估,由此将相似的实例分组到聚类中;基于所述多个聚类,确定包括泛化特征集合的替选特征集合,其中所述泛化特征集合中的每个泛化特征对应于所述多个聚类中的聚类,其中对应于聚类的泛化特征指示作为对应聚类的成员的实例;获得第二实例;确定泛化的第二实例,其中泛化的第二实例包括对第二实例的替选特征集合的评估;以及基于泛化的第二实例,确定第二实例的标签。

所公开的主题的又一示例性实施例是一种具有处理器和耦合的存储器的计算机化的装置,所述处理器适于执行以下步骤:获得所标记的数据集,其中所标记的数据集包括多个实例及其标签,其中每个实例包括对特征集合的评估;基于标签,确定多个桶,所述多个桶中的每个桶具有相关联的标签,其中每个桶将来自所标记的数据集中的具有在与桶的相关联的标签的相似性阈值之内的标签的实例进行分组;确定多个聚类,其中每个聚类包括由相同桶包括的多个实例,其中所述确定多个聚类是基于对实例的特征集合的评估,由此将相似的实例分组到聚类中;基于所述多个聚类,确定包括泛化特征集合的替选特征集合,其中所述泛化特征集合中的每个泛化特征对应于所述多个聚类中的聚类,其中对应于聚类的泛化特征指示作为对应聚类的成员的实例;获得第二实例;确定泛化的第二实例,其中泛化的第二实例包括对第二实例的替选特征集合的评估;以及基于泛化的第二实例,确定第二实例的标签。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010783314.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top