[发明专利]一种样本查找方法及装置有效
申请号: | 201810091371.3 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108170866B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 徐佳宏;朱吕亮 | 申请(专利权)人: | 深圳市茁壮网络股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518004 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 查找 方法 装置 | ||
本申请提供了一种样本查找方法及装置,在本申请中,所述决策树的各个叶子节点各自对应唯一一个样本,保证各个叶子节点之间不存在冲突,在各个叶子节点之间不存在冲突的基础上,可以在当前节点对应的样本集合中样本个数为1时,确定当前节点为叶子节点,并将叶子节点作为待查找节点,获取待查找节点对应的样本,比较待测样本与待查找节点对应的样本是否相同,若相同,则确定决策树对应的样本集合中存在待查样本,若不相同,则确定决策树对应的样本集合中不存在所述待查样本,通过一次比较即可完成待查样本的查找,减少了比较次数,提高了查找效率。
技术领域
本申请涉及数据处理技术领域,特别涉及一种样本查找方法及装置。
背景技术
数据处理相关工作中,数据查找往往占据着比较重要的位置。
常用地,可以采用树形结构进行数据查找,但是目前树形结构中节点间存在较多冲突,导致数据查找过程中需要进行更多次数的比较,查找效率低。
发明内容
为解决上述技术问题,本申请实施例提供一种样本查找方法及装置,以达到减少比较次数,提高查找效率的目的,技术方案如下:
一种样本查找方法,包括:
确定预先构建的决策树的根节点为当前节点,所述决策树的各个叶子节点各自对应唯一一个样本,所述决策树为利用样本库构建得到;
判断所述当前节点对应的样本集合中样本的个数是否为1;
若为1,则确定所述当前节点为叶子节点,并将所述叶子节点作为待查找节点;
获取所述待查找节点对应的样本;
比较待测样本与所述待查找节点对应的样本是否相同;
若相同,则确定所述决策树对应的样本集合中存在所述待查样本;
若不相同,则确定所述决策树对应的样本集合中不存在所述待查样本;
若不为1,则判断所述当前节点对应的样本集合中样本的个数是否大于1;
若大于1,则确定所述当前节点的分裂位;
若所述待查样本的超长位串属性值中对应所述分裂位的属性值为0,则将所述当前节点的左子节点作为当前节点,并返回执行判断所述当前节点对应的样本集合中样本的个数是否为1的步骤;
若所述待查样本的超长位串属性值中对应所述分裂位的属性值为1,则将所述当前节点的右子节点作为当前节点,并返回执行判断所述当前节点对应的样本集合中样本的个数是否为1的步骤。
优选的,所述决策树的构建过程,包括:
建立树的根节点,将所述样本库作为所述根节点对应的样本集合;
将所述根节点作为当前待分裂节点;
为所述当前待分裂节点创建两个子节点,分别为左子节点和右子节点;
确定所述当前待分裂节点的分裂位;
检测所述当前待分裂节点对应的样本集合中各个样本的超长位串属性值中,与所述当前待分裂节点的分裂位对应的属性值的大小;
将所述当前待分裂节点对应的样本集合中,与所述当前待分裂节点的分裂位对应的属性值的大小为0的样本,添加到所述左子节点对应的样本集合中;
将所述左子节点作为所述当前待分裂节点,并返回执行为所述当前待分裂节点创建两个子节点,分别为左子节点和右子节点的步骤,直至所述左子节点对应的样本集合中的样本的个数为1;
将所述当前待分裂节点对应的样本集合中,与所述当前待分裂节点的分裂位对应的属性值的大小为1的样本,添加到所述右子节点对应的样本集合中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市茁壮网络股份有限公司,未经深圳市茁壮网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810091371.3/2.html,转载请声明来源钻瓜专利网。