[发明专利]用于预测模型的数据泛化在审
申请号: | 202010783314.9 | 申请日: | 2020-08-06 |
公开(公告)号: | CN112347322A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | G·埃佐夫;A·法尔卡什;A·高登斯特恩;R·施梅尔金;M·G·莫夫尔 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62;G06N3/04 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 郑宗玉 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 预测 模型 数据 泛化 | ||
用于预测模型的数据泛化。用于预测模型的数据泛化的方法、装置和产品。该方法包括:基于所标记的数据集,确定多个桶,多个桶中的每个桶具有相关联的标签;确定多个聚类,将相同桶中的相似实例进行分组;基于多个聚类,确定包括泛化特征集合的替选特征集合,其中每个泛化特征对应于多个聚类中的聚类,其中对应于聚类的泛化特征指示被映射到对应聚类的实例;获得第二实例;确定泛化的第二实例,泛化的第二实例包括对第二实例的替选特征集合的评估;以及基于泛化的第二实例,确定第二实例的标签。
技术领域
本公开总体上涉及对数据进行泛化,并且尤其涉及使用聚类对用于预测模型的数据进行泛化。
背景技术
数据最小化可以是指将个人信息的收集限制为与实现特定目的直接相关并且为实现特定目的所需要的信息的实践。随着公司和组织开始理解数据的力量,并且随着数据变得更加无处不在并且更易于收集,分析师面临大量的数据。有一段时间,人们的冲动是无限期地保存所有这些数据。随着智能电话、物联网(IoT)设备等的快速采用,组织面临越来越多的方式来收集越来越多种类的数据,包括尤其是私人的、个人可识别的数据。数据管理员现在不再保存所有数据,而是采用数据最小化策略,只保留相关和需要的数据。
发明内容
所公开的主题的一个示例性实施例是一种方法,包括:获得所标记的数据集,其中所标记的数据集包括多个实例及其标签,其中每个实例包括对特征集合的评估;基于标签,确定多个桶,所述多个桶中的每个桶具有相关联的标签,其中每个桶将来自所标记的数据集中的具有在与桶的相关联的标签的相似性阈值之内的标签的实例进行分组;确定多个聚类,其中每个聚类包括由相同桶包括的多个实例,其中所述确定多个聚类是基于对实例的特征集合的评估,由此将相似的实例分组到聚类中;基于所述多个聚类,确定包括泛化特征集合的替选特征集合,其中所述泛化特征集合中的每个泛化特征对应于所述多个聚类中的聚类,其中对应于聚类的泛化特征指示作为对应聚类的成员的实例;获得第二实例;确定泛化的第二实例,其中泛化的第二实例包括对第二实例的替选特征集合的评估;以及基于泛化的第二实例,确定第二实例的标签。
所公开的主题的另一示例性实施例是一种计算机程序产品,包括保存程序指令的非暂时性计算机可读存储介质,所述程序指令在被处理器读取时使所述处理器执行:获得所标记的数据集,其中所标记的数据集包括多个实例及其标签,其中每个实例包括对特征集合的评估;基于标签,确定多个桶,所述多个桶中的每个桶具有相关联的标签,其中每个桶将来自所标记的数据集中的具有在与桶的相关联的标签的相似性阈值之内的标签的实例进行分组;确定多个聚类,其中每个聚类包括由相同桶包括的多个实例,其中所述确定多个聚类是基于对实例的特征集合的评估,由此将相似的实例分组到聚类中;基于所述多个聚类,确定包括泛化特征集合的替选特征集合,其中所述泛化特征集合中的每个泛化特征对应于所述多个聚类中的聚类,其中对应于聚类的泛化特征指示作为对应聚类的成员的实例;获得第二实例;确定泛化的第二实例,其中泛化的第二实例包括对第二实例的替选特征集合的评估;以及基于泛化的第二实例,确定第二实例的标签。
所公开的主题的又一示例性实施例是一种具有处理器和耦合的存储器的计算机化的装置,所述处理器适于执行以下步骤:获得所标记的数据集,其中所标记的数据集包括多个实例及其标签,其中每个实例包括对特征集合的评估;基于标签,确定多个桶,所述多个桶中的每个桶具有相关联的标签,其中每个桶将来自所标记的数据集中的具有在与桶的相关联的标签的相似性阈值之内的标签的实例进行分组;确定多个聚类,其中每个聚类包括由相同桶包括的多个实例,其中所述确定多个聚类是基于对实例的特征集合的评估,由此将相似的实例分组到聚类中;基于所述多个聚类,确定包括泛化特征集合的替选特征集合,其中所述泛化特征集合中的每个泛化特征对应于所述多个聚类中的聚类,其中对应于聚类的泛化特征指示作为对应聚类的成员的实例;获得第二实例;确定泛化的第二实例,其中泛化的第二实例包括对第二实例的替选特征集合的评估;以及基于泛化的第二实例,确定第二实例的标签。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010783314.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置