[发明专利]针对决策树的节点的数据的预统计有效
申请号: | 201710050188.4 | 申请日: | 2017-01-20 |
公开(公告)号: | CN108334951B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 周虎成;李翠 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N5/01 | 分类号: | G06N5/01;G06N20/20 |
代理公司: | 北京世辉律师事务所 16093 | 代理人: | 李峥宇 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 决策树 节点 数据 统计 | ||
1.一种基于决策树的数据处理方法,包括:
在多个机器处以分布方式;
获取针对所述决策树的节点的多个数据样本,所述多个数据样本关于第一特征具有相应的特征值;
从预定义的多个数值范围中确定目标范围,使得落入所述目标范围中的特征值的数目超过第一阈值数目;
将除落入所述目标范围中的所述特征值之外的其余特征值分配到所述多个数值范围;以及
基于所述其余特征值的所述分配,对落入所述多个数值范围中的所述特征值计数,以用于所述多个数据样本向所述节点的子节点的分配。
2.根据权利要求1所述的方法,其中对所述特征值计数包括:
用所述多个数据样本的总数,减去落入除所述目标范围之外的其余数值范围的特征值的数目,作为落入所述目标范围中的特征值数目。
3.根据权利要求1所述的方法,其中获取所述多个数据样本包括:
在所述多个机器中的一个机器处,确定针对所述节点的数据样本集合中的样本数目是否低于第二阈值数目;以及
响应于所述样本数目低于所述第二阈值数目,选择所述数据样本集合中的所有数据样本作为所述多个数据样本。
4.根据权利要求3所述的方法,其中所述第一特征选自一个特征集合,并且所述第二阈值数目至少部分地基于所述特征集合中的特征数目和所述多个数值范围的数目的第一乘积来确定。
5.根据权利要求4所述的方法,其中所述第二阈值数目进一步至少部分地基于所述多个机器的数目和所述第一乘积的第二乘积来确定。
6.根据权利要求3所述的方法,其中所述子节点至少包括左子节点和右子节点,并且所述方法还包括:
在所述多个机器中的所述一个机器处,获得第二特征和所述第二特征的阈值特征值;
从所述数据样本集合中选择一个数据样本子集;以及
针对所述数据样本子集中的每个数据样本:
将该数据样本的关于所述第二特征的特征值与所述阈值特征值比较,
基于所述比较来确定将该数据样本分配给所述左子节点还是所述右子节点,以及
向所述多个机器中的另一机器发送用于指示所述确定的1比特指示符。
7.根据权利要求3所述的方法,其中获取所述多个数据样本还包括:
响应于所述样本数目高于所述第二阈值数目,在所述多个机器中的所述一个机器处,选择所述数据样本集合的子集作为所述多个数据样本。
8.根据权利要求1所述的方法,还包括:
基于所述特征值计数将所述数据样本从所述节点分配到所述子节点;
确定是否已经获得所述决策树的多个叶子节点候选,所述多个叶子节点候选的数目超过第三阈值数目;
响应于确定已经获得所述多个叶子节点候选,获取所述决策树的底层子树,所述底层子树包括具有相同父节点的所述叶子节点候选和所述父节点;以及
响应于针对所述底层子树中的所述叶子节点候选的数据样本之间的差异低于阈值差异,将所述底层子树中的所述叶子节点候选移除。
9.根据权利要求8所述的方法,其中所述节点具有兄弟节点,并且将所述数据样本从所述节点分配到所述子节点还包括:
并行地执行所述数据样本从所述节点到所述子节点的分配以及针对所述兄弟节点的数据样本向所述兄弟节点的子节点的分配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710050188.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置