[发明专利]基于改进CART决策树的数据传输方法、系统和设备有效
申请号: | 202110834148.5 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113285845B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 苑志超;朱剑飞;刘奎 | 申请(专利权)人: | 灵长智能科技(杭州)有限公司 |
主分类号: | H04L41/142 | 分类号: | H04L41/142;H04L41/14;G06K9/62 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张超 |
地址: | 310000 浙江省杭州市滨江区浦*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 cart 决策树 数据传输 方法 系统 设备 | ||
1.一种基于改进CART决策树的数据传输方法,其特征在于,所述方法包括:
获取用于训练决策树的预设样本数据集,其中,所述预设样本数据集包含若干样本特征;
重复执行预设步骤直到生成CART决策树,根据若干所述CART决策树生成随机森林,通过所述随机森林预判网络数据传输中数据是否丢包,提前重发预判丢包数据;
所述预设步骤包括:
根据所述预设样本数据集中样本数据个数N和正标签的样本数据个数S对预设阈值进行转换计算得到停止条件,即将所述预设阈值乘以;
根据所述预设样本数据集中的每一个样本特征,并行地对所述预设样本数据集进行读取和统计,并将若干统计结果进行保存,即将读取统计到的多个样本特征的数据进行存储;
逐个根据若干所述统计结果,通过所述预设样本数据集的基尼指数Gini(D)和所述样本特征的基尼指数Gini(D,A)进行计算,得到所述样本特征的基尼指数增益Gain为,根据公式化简得到,根据在每次进行分类前N和S都为常数,对所述化简得到的公式进行进一步简化,得到基尼指数增益为,其中,N是所述预设样本数据集中的样本数据个数,S是N中正标签的样本数据个数,Nl是N中切分点左边的样本数据个数,Nr是N中切分点右边的样本数据个数,Sl是Nl中正标签的样本数据个数,Sr是Nr中正标签的样本数据个数;
从若干所述样本特征的基尼指数增益中选取出划分基尼指数增益;
根据所述划分基尼指数增益和所述停止条件,判断是否满足划分条件;
若不满足,则停止所述预设样本数据集的计算,并直到所有预设样本数据集的计算停止后,生成CART决策树;
若满足,则根据最优特征和最优切分点,将预设样本数据集划分成第一子样本数据集和第二子样本数据集,并分别将所述第一子样本数据集和第二子样本数据设为预设样本数据集。
2.根据权利要求1所述的方法,其特征在于,所述预设样本数据集的基尼指数Gini(D)包括:
所述预设样本数据集的预设基尼指数Gini(D),根据所述预设样本数据集中正标签的样本数据个数,通过公式得到,其中,N是所述预设样本数据集中的样本数据个数,S是N中正标签的样本数据个数。
3.根据权利要求1所述的方法,其特征在于,所述样本特征的基尼指数Gini(D,A)包括:
所述样本特征的基尼指数Gini(D,A),分别选取所述预设样本数据集中的样本特征和切分点,通过公式得到,其中,N是所述预设样本数据集中的样本数据个数,Nl是N中切分点左边的样本数据个数,Nr是N中切分点右边的样本数据个数,Sl是Nl中正标签的样本数据个数,Sr是Nr中正标签的样本数据个数。
4.根据权利要求1所述的方法,其特征在于,根据所述划分基尼指数增益和所述停止条件,判断是否满足划分条件包括:
判断所述划分基尼指数增益是否大于所述停止条件,若是,则满足划分条件,若否,则不满足划分条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于灵长智能科技(杭州)有限公司,未经灵长智能科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110834148.5/1.html,转载请声明来源钻瓜专利网。