[发明专利]一种用于拟合变量联合分布的分层采样树方法及装置在审
申请号: | 202111012713.6 | 申请日: | 2021-08-31 |
公开(公告)号: | CN114048861A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 林熙东;杨青 | 申请(专利权)人: | 度小满科技(北京)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 拟合 变量 联合 分布 分层 采样 方法 装置 | ||
本发明公开了一种用于拟合变量联合分布的分层采样树方法、装置、设备及介质,其中方法包括:获取样本数据集所有0‑1取值的特征变量,按照编号顺序对特征变量进行排列,创建初始节点结构;遍历样本数据集的样本,按照特征变量顺序检查该样本每个特征的取值,直至检查完样本数据集所有样本后生成初始分层采样树;对初始分层采样树进行节点修正,直至所有节点均被遍历,得到修正后的分层采样树;通过修正后的分层采样树每次生成一个样本,重复该采样过程,直至生成所需的样本个数,得到采样样本数据集。本发明能够在拟合阶段高效捕捉样本数据集中多个0‑1变量的联合分布信息,在后续推理阶段精确生成与目标样本集相同联合分布的模拟样本数据集。
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种用于拟合变量联合分布的分层采样树方法、装置、设备及介质。
背景技术
为了更好地反映模型在特定样本数据分布下的预测性能,往往需要模拟生成符合一定分布规律的样本集,然后在此样本集合的基础上进行对模型性能的评估评估。而在如今的大数据时代,很多模型的输入中有大量变量是0-1取值的稀疏特征,并且这些特征之间又并非是独立关系。在这个条件下,特别当样本数量和特征组合数相比较小时,常规方法依次按每个特征各自的分布采样生成的样本集和目标样本集在总体分布上差异很大,不能满足场景模拟的需要。
发明内容
本发明实施例所要解决的技术问题在于,提供一种用于拟合变量联合分布的分层采样树方法、装置、设备及介质,能够解决现有技术依次按每个特征各自的分布采样生成的样本集和目标样本集在总体分布上差异很大,不能满足场景模拟的需要的技术问题。
为解决上述问题,本申请实施例的第一方面提供了一种用于拟合变量联合分布的分层采样树方法,至少包括如下步骤:
获取样本数据集中所有0-1取值的特征变量,并按照预设编号顺序对所述特征变量进行排列,创建对应的初始节点结构;
遍历所述样本数据集中的每一个样本,按照特征变量顺序检查该样本每个特征的取值,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树;
对所述初始分层采样树进行节点修正,直至所述初始分层采样树中所有节点均被遍历,得到修正后的分层采样树;
通过所述修正后的分层采样树每次生成对应的一个样本,重复该采样过程,直至生成所需的样本个数,得到模拟样本数据集。
在第一方面的一种可能的实现方式中,所述遍历所述样本数据集中的每一个样本,按照特征变量顺序检查该样本每个特征的取值,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树,具体为:
当检查任一特征的取值为1时,则新建一个节点并进行初始化,将当前游标指针指向的节点所对应的特征变量的域的孩子节点指针指向该新建节点,对该特征变量的域的计数字段增1,并将当前游标指针下移指向该新节点,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树。
在第一方面的一种可能的实现方式中,所述对所述初始分层采样树进行节点修正,直至所述初始分层采样树中所有节点均被遍历,得到修正后的分层采样树,包括:
将所述初始分层采样树中的每个节点的计数字段修正为(0,1]的小数;
对所述初始分层采样树中的每一层的各个节点的每个域所对应的计数字段值均进行求和修正;
在各个节点完成所述求和修正后,分别对各个节点所对应的若干个孩子节点进行修正,直至所有节点均被遍历,得到修正后的分层采样树。
在第一方面的一种可能的实现方式中,所述求和修正,具体为:
对所述初始分层采样树中的每一层中各个节点的每个域所对应的计数字段值进行求和;
若和值非零,则将每个域所对应的计数字段值除以该和值进行修正;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于度小满科技(北京)有限公司,未经度小满科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111012713.6/2.html,转载请声明来源钻瓜专利网。