[发明专利]一种用于拟合变量联合分布的分层采样树方法及装置在审
申请号: | 202111012713.6 | 申请日: | 2021-08-31 |
公开(公告)号: | CN114048861A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 林熙东;杨青 | 申请(专利权)人: | 度小满科技(北京)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 拟合 变量 联合 分布 分层 采样 方法 装置 | ||
1.一种用于拟合变量联合分布的分层采样树方法,其特征在于,至少包括如下步骤:
获取样本数据集中所有0-1取值的特征变量,并按照预设编号顺序对所述特征变量进行排列,创建对应的初始节点结构;
遍历所述样本数据集中的每一个样本,按照特征变量顺序检查该样本每个特征的取值,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树;
对所述初始分层采样树进行节点修正,直至所述初始分层采样树中所有节点均被遍历,得到修正后的分层采样树;
通过所述修正后的分层采样树每次生成对应的一个样本,重复该采样过程,直至生成所需的样本个数,得到模拟样本数据集。
2.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,所述遍历所述样本数据集中的每一个样本,按照特征变量顺序检查该样本每个特征的取值,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树,具体为:
当检查任一特征的取值为1时,则新建一个节点并进行初始化,将当前游标指针指向的节点所对应的特征变量的域的孩子节点指针指向该新建节点,对该特征变量的域的计数字段增1,并将当前游标指针下移指向该新节点,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树。
3.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,所述对所述初始分层采样树进行节点修正,直至所述初始分层采样树中所有节点均被遍历,得到修正后的分层采样树,包括:
将所述初始分层采样树中的每个节点的计数字段修正为(0,1]的小数;
对所述初始分层采样树中的每一层的各个节点的每个域所对应的计数字段值均进行求和修正;
在各个节点完成所述求和修正后,分别对各个节点所对应的若干个孩子节点进行修正,直至所有节点均被遍历,得到修正后的分层采样树。
4.根据权利要求3所述的用于拟合变量联合分布的分层采样树方法,其特征在于,所述求和修正,具体为:
对所述初始分层采样树中的每一层中各个节点的每个域所对应的计数字段值进行求和;
若和值非零,则将每个域所对应的计数字段值除以该和值进行修正;
若和值为零,则跳过该节点,对下一个节点进行修正。
5.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,所述通过所述修正后的分层采样树每次生成对应的一个样本具体为:
通过所述修正后的分层采样树新建一个初始样本,其中每个特征取值为0;
将当前游标指针指向分层采样树的第一个节点;
随机生成一个随机数,查找该随机数在当前节点所对应的域,将初始样本的对应的域的特征值赋值为1,将当前游标指针指向该域的孩子节点;
重复上一步,直至当前游标指针指向的节点为空值,完成该条样本的采样过程。
6.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,在创建对应的节点结构之后,还包括:
对所述初始节点结构中的每个节点进行初始化操作,将每个特征变量对应的域内的指针设为空值,以及对该特征变量的域的计数字段赋值为0。
7.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,在所述遍历所述样本数据集中的每一个样本步骤之前,还包括:
将树根指针指向初始节点结构的第一层节点,并将当前游标指针指向该节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于度小满科技(北京)有限公司,未经度小满科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111012713.6/1.html,转载请声明来源钻瓜专利网。