[发明专利]一种海量数据的快速建模方法无效
申请号: | 200810057144.5 | 申请日: | 2008-01-30 |
公开(公告)号: | CN101226551A | 公开(公告)日: | 2008-07-23 |
发明(设计)人: | 伊胜伟;胡记兵;马世龙;蔡家楣 | 申请(专利权)人: | 北京航空航天大学;浙江工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 | 代理人: | 周长琪 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据 快速 建模 方法 | ||
1.一种海量数据的快速建模方法,其特征在于,本方法包括如下步骤:
步骤一:根据当前结点所包含的记录的ID集进行操作;连续从外存读取当前结点包含了其ID号的记录;第一次执行此步骤时,当前结点包含了数据库中存放的数据集的所有记录的ID,这些ID存放在一个文件中;每读入一条记录后,如果该记录属于新类i,i=1、2,则创建vi和wi(vi为关于类i的p维向量,p是单属性个数;wi为关于类i的p×p矩阵)并初始化为0,并将类i加入到类集合中,然后更新每个vi和wi的值,其中vi的第j个分量存储属于类i的所有记录的第j个属性值的和;对每个j和r(j,r=1,2,…,p),xj·xr是每条记录第j分量和第r分量的乘积,属于类i的所有记录的xj·xr之和存放在wi的第j行第r列,更新完毕进行存储;然后释放这条记录所占的内存空间;
步骤二:创建V1,W1和V2,W2并初始化为0;将属于不同类的vi和wi分成两组,将vi的各分量加到vi所属组对应的分量上,并将wi的每个位置上的元素加到wi所属组对应的位置上;
步骤三:通过V1,W1和V2,W2计算类1数据和类2数据的均值向量和样本协方差矩阵,计算总体样本协方差矩阵及其逆矩阵;
步骤四:采用一定的筛选比例筛选需要被测试的属性集,筛选比例范围为75%-85%;
步骤五:设通过步骤四筛选的属性集合是A1,A2,…,Ah。求出这个集合中的每个属性的Anderson规则并利用每个规则进行分割,计算每个分割的不纯度;
步骤六:选择最小不纯度对应的属性进行分割,把当前结点的数据分割成两个子集,代表子集的子结点记录该子集包含的所有记录的ID号;
步骤七:判断子集是否满足终止条件;如果满足,则终止;只要有一个子集不满足终止条件,则重置V1,W1和V2,W2,且对该子集重复执行步骤一至步骤六。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;浙江工业大学,未经北京航空航天大学;浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810057144.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子银行网站客户行为及信息处理方法及系统
- 下一篇:喷墨打印装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置