[发明专利]一种海量数据的快速建模方法无效

专利信息
申请号: 200810057144.5 申请日: 2008-01-30
公开(公告)号: CN101226551A 公开(公告)日: 2008-07-23
发明(设计)人: 伊胜伟;胡记兵;马世龙;蔡家楣 申请(专利权)人: 北京航空航天大学;浙江工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京永创新实专利事务所 代理人: 周长琪
地址: 100083*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种海量数据的快速建模方法,该方法是对SURPASS方法的进一步改进。该方法从数据集中获取数据并作处理,通过可视化的过程最终生成一棵供预测分类的决策树。该方法在建模的过程中,通过为每个属性计算一个指标值作为属性的特征值,并根据特征值对属性进行筛选,使得在建模过程的比较不纯度这一步骤中,被测试的属性数量减少,也就是用少量的内存操作数替代大量的外存操作,达到了提高建模效率,节省建模时间的效果,特别是对于海量数据的快速建模具有良好的应用价值。
搜索关键词: 一种 海量 数据 快速 建模 方法
【主权项】:
1.一种海量数据的快速建模方法,其特征在于,本方法包括如下步骤:步骤一:根据当前结点所包含的记录的ID集进行操作;连续从外存读取当前结点包含了其ID号的记录;第一次执行此步骤时,当前结点包含了数据库中存放的数据集的所有记录的ID,这些ID存放在一个文件中;每读入一条记录后,如果该记录属于新类i,i=1、2,则创建vi和wi(vi为关于类i的p维向量,p是单属性个数;wi为关于类i的p×p矩阵)并初始化为0,并将类i加入到类集合中,然后更新每个vi和wi的值,其中vi的第j个分量存储属于类i的所有记录的第j个属性值的和;对每个j和r(j,r=1,2,…,p),xj·xr是每条记录第j分量和第r分量的乘积,属于类i的所有记录的xj·xr之和存放在wi的第j行第r列,更新完毕进行存储;然后释放这条记录所占的内存空间;步骤二:创建V1,W1和V2,W2并初始化为0;将属于不同类的vi和wi分成两组,将vi的各分量加到vi所属组对应的分量上,并将wi的每个位置上的元素加到wi所属组对应的位置上;步骤三:通过V1,W1和V2,W2计算类1数据和类2数据的均值向量和样本协方差矩阵,计算总体样本协方差矩阵及其逆矩阵;步骤四:采用一定的筛选比例筛选需要被测试的属性集,筛选比例范围为75%-85%;步骤五:设通过步骤四筛选的属性集合是A1,A2,…,Ah。求出这个集合中的每个属性的Anderson规则并利用每个规则进行分割,计算每个分割的不纯度;步骤六:选择最小不纯度对应的属性进行分割,把当前结点的数据分割成两个子集,代表子集的子结点记录该子集包含的所有记录的ID号;步骤七:判断子集是否满足终止条件;如果满足,则终止;只要有一个子集不满足终止条件,则重置V1,W1和V2,W2,且对该子集重复执行步骤一至步骤六。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;浙江工业大学,未经北京航空航天大学;浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200810057144.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top