[发明专利]针对决策树的节点的数据的预统计有效

专利信息
申请号: 201710050188.4 申请日: 2017-01-20
公开(公告)号: CN108334951B 公开(公告)日: 2023-04-25
发明(设计)人: 周虎成;李翠 申请(专利权)人: 微软技术许可有限责任公司
主分类号: G06N5/01 分类号: G06N5/01;G06N20/20
代理公司: 北京世辉律师事务所 16093 代理人: 李峥宇
地址: 美国华*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 针对 决策树 节点 数据 统计
【权利要求书】:

1.一种基于决策树的数据处理方法,包括:

在多个机器处以分布方式;

获取针对所述决策树的节点的多个数据样本,所述多个数据样本关于第一特征具有相应的特征值;

从预定义的多个数值范围中确定目标范围,使得落入所述目标范围中的特征值的数目超过第一阈值数目;

将除落入所述目标范围中的所述特征值之外的其余特征值分配到所述多个数值范围;以及

基于所述其余特征值的所述分配,对落入所述多个数值范围中的所述特征值计数,以用于所述多个数据样本向所述节点的子节点的分配。

2.根据权利要求1所述的方法,其中对所述特征值计数包括:

用所述多个数据样本的总数,减去落入除所述目标范围之外的其余数值范围的特征值的数目,作为落入所述目标范围中的特征值数目。

3.根据权利要求1所述的方法,其中获取所述多个数据样本包括:

在所述多个机器中的一个机器处,确定针对所述节点的数据样本集合中的样本数目是否低于第二阈值数目;以及

响应于所述样本数目低于所述第二阈值数目,选择所述数据样本集合中的所有数据样本作为所述多个数据样本。

4.根据权利要求3所述的方法,其中所述第一特征选自一个特征集合,并且所述第二阈值数目至少部分地基于所述特征集合中的特征数目和所述多个数值范围的数目的第一乘积来确定。

5.根据权利要求4所述的方法,其中所述第二阈值数目进一步至少部分地基于所述多个机器的数目和所述第一乘积的第二乘积来确定。

6.根据权利要求3所述的方法,其中所述子节点至少包括左子节点和右子节点,并且所述方法还包括:

在所述多个机器中的所述一个机器处,获得第二特征和所述第二特征的阈值特征值;

从所述数据样本集合中选择一个数据样本子集;以及

针对所述数据样本子集中的每个数据样本:

将该数据样本的关于所述第二特征的特征值与所述阈值特征值比较,

基于所述比较来确定将该数据样本分配给所述左子节点还是所述右子节点,以及

向所述多个机器中的另一机器发送用于指示所述确定的1比特指示符。

7.根据权利要求3所述的方法,其中获取所述多个数据样本还包括:

响应于所述样本数目高于所述第二阈值数目,在所述多个机器中的所述一个机器处,选择所述数据样本集合的子集作为所述多个数据样本。

8.根据权利要求1所述的方法,还包括:

基于所述特征值计数将所述数据样本从所述节点分配到所述子节点;

确定是否已经获得所述决策树的多个叶子节点候选,所述多个叶子节点候选的数目超过第三阈值数目;

响应于确定已经获得所述多个叶子节点候选,获取所述决策树的底层子树,所述底层子树包括具有相同父节点的所述叶子节点候选和所述父节点;以及

响应于针对所述底层子树中的所述叶子节点候选的数据样本之间的差异低于阈值差异,将所述底层子树中的所述叶子节点候选移除。

9.根据权利要求8所述的方法,其中所述节点具有兄弟节点,并且将所述数据样本从所述节点分配到所述子节点还包括:

并行地执行所述数据样本从所述节点到所述子节点的分配以及针对所述兄弟节点的数据样本向所述兄弟节点的子节点的分配。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710050188.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top