[发明专利]一种数据处理方法及装置、存储介质在审
申请号: | 201910754310.5 | 申请日: | 2019-08-15 |
公开(公告)号: | CN112395273A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 黄刚 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06K9/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王姗姗;张颖玲 |
地址: | 215163 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 存储 介质 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
当根据预设样本数据获取到样本特征数据时,利用预设特征选择算法,构建所述样本特征数据的决策树,得到至少两棵决策树,所述至少两棵决策树包括所述样本特征数据对应的初始特征集合和所述初始特征集合中每个特征在所述至少两棵决策树中每棵决策树的构建信息;
根据至少两个所述构建信息中每个所述构建信息的不确定性指数和分裂次数,计算所述每个特征的全局重要度,从而得到所述初始特征集合对应的全局重要度集合;
根据所述全局重要度集合,从所述初始特征集合中选择满足重要度条件的目标特征集合;
当获取到待处理数据时,根据所述目标特征集合对所述待处理数据进行特征数据的转换处理,以根据转换处理后的待处理数据进行预测处理。
2.根据权利要求1所述的方法,其特征在于,所述利用预设特征选择算法,构建所述样本特征数据的决策树,得到至少两棵决策树之前,所述方法还包括:
确定基学习器;
相应地,所述利用预设特征选择算法,构建所述样本特征数据的决策树,得到至少两棵决策树,包括:
根据所述预设特征选择算法,利用所述基学习器对所述样本特征数据进行迭代构建决策树,得到所述至少两棵决策树。
3.根据权利要求1所述的方法,其特征在于,所述根据至少两个所述构建信息中每个所述构建信息的不确定性指数和分裂次数,计算所述每个特征的全局重要度,包括:
根据至少两个所述构建信息中每个所述构建信息的所述不确定性指数,计算所述每个特征在所述至少两棵决策树的不确定性指数均值;
根据至少两个所述构建信息中每个所述构建信息的所述分裂次数,计算所述每个特征在所述至少两棵决策树的分裂次数总和;
根据所述不确定性指数均值和所述分裂次数总和,得到所述每个特征的所述全局重要度。
4.根据权利要求1所述的方法,其特征在于,所述根据至少两个所述构建信息中每个所述构建信息的不确定性指数和分裂次数,计算所述每个特征的全局重要度之前,所述方法还包括:
获取所述每个特征在所述至少两棵决策树的每棵决策树中的至少两个分支;
计算所述至少两个分支中每个分支对应的子不确定性指数;
根据至少两个所述子不确定性指数,计算每个所述构建信息的所述不确定性指数,从而得到至少两个所述构建信息中的所述不确定性指数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述全局重要度集合,从所述初始特征集合中选择满足重要度条件的目标特征集合,包括:
基于所述全局重要度集合对所述初始特征集合中的特征进行排序,得到排序后的初始特征集合,所述排序后的初始特征集合包括n个特征,n为大于等于1的正整数;
当所述排序后的初始特征集合为依据全局重要度的倒序排列时,从所述排序后的初始特征集合中选择第1个特征,并确定所述第1个特征的预测准确率P1;
从所述排序后的初始特征集合中选择第2个特征,并确定所述第2个特征的预测准确率P2;
根据所述重要度条件,从所述排序后的初始特征集合中选择第k个特征,并确定所述第k个特征的预测准确率Pk,直到预设数量c个Pk-c+1至Pk依次降低时,停止选择特征,并将已选择出的k-c+1个特征作为所述目标特征集合,其中,k为大于等于3且小于等于n的正整数,c为大于等于3且小于等于k的正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910754310.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:燃烧试验台架
- 下一篇:一种血糖测量探头和血糖测量装置和方法