[发明专利]一种海量数据的快速建模方法无效

申请号：	200810057144.5	申请日：	2008-01-30
公开（公告）号：	CN101226551A	公开（公告）日：	2008-07-23
发明（设计）人：	伊胜伟;胡记兵;马世龙;蔡家楣	申请（专利权）人：	北京航空航天大学;浙江工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京永创新实专利事务所	代理人：	周长琪
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种海量数据的快速建模方法，该方法是对SURPASS方法的进一步改进。该方法从数据集中获取数据并作处理，通过可视化的过程最终生成一棵供预测分类的决策树。该方法在建模的过程中，通过为每个属性计算一个指标值作为属性的特征值，并根据特征值对属性进行筛选，使得在建模过程的比较不纯度这一步骤中，被测试的属性数量减少，也就是用少量的内存操作数替代大量的外存操作，达到了提高建模效率，节省建模时间的效果，特别是对于海量数据的快速建模具有良好的应用价值。
搜索关键词：	一种海量数据快速建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种海量数据的快速建模方法，其特征在于，本方法包括如下步骤：步骤一：根据当前结点所包含的记录的ID集进行操作；连续从外存读取当前结点包含了其ID号的记录；第一次执行此步骤时，当前结点包含了数据库中存放的数据集的所有记录的ID，这些ID存放在一个文件中；每读入一条记录后，如果该记录属于新类i，i＝1、2，则创建vi和wi(vi为关于类i的p维向量，p是单属性个数；wi为关于类i的p×p矩阵)并初始化为0，并将类i加入到类集合中，然后更新每个vi和wi的值，其中vi的第j个分量存储属于类i的所有记录的第j个属性值的和；对每个j和r(j，r＝1，2，…，p)，xj·xr是每条记录第j分量和第r分量的乘积，属于类i的所有记录的xj·xr之和存放在wi的第j行第r列，更新完毕进行存储；然后释放这条记录所占的内存空间；步骤二：创建V1，W1和V2，W2并初始化为0；将属于不同类的vi和wi分成两组，将vi的各分量加到vi所属组对应的分量上，并将wi的每个位置上的元素加到wi所属组对应的位置上；步骤三：通过V1，W1和V2，W2计算类1数据和类2数据的均值向量和样本协方差矩阵，计算总体样本协方差矩阵及其逆矩阵；步骤四：采用一定的筛选比例筛选需要被测试的属性集，筛选比例范围为75％-85％；步骤五：设通过步骤四筛选的属性集合是A1，A2，…，Ah。求出这个集合中的每个属性的Anderson规则并利用每个规则进行分割，计算每个分割的不纯度；步骤六：选择最小不纯度对应的属性进行分割，把当前结点的数据分割成两个子集，代表子集的子结点记录该子集包含的所有记录的ID号；步骤七：判断子集是否满足终止条件；如果满足，则终止；只要有一个子集不满足终止条件，则重置V1，W1和V2，W2，且对该子集重复执行步骤一至步骤六。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;浙江工业大学，未经北京航空航天大学;浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200810057144.5/，转载请声明来源钻瓜专利网。

上一篇：电子银行网站客户行为及信息处理方法及系统
下一篇：喷墨打印装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种海量数据的快速建模方法无效

专利文献下载