[发明专利]一种新的数据挖掘方法在审
申请号: | 201810205935.1 | 申请日: | 2018-03-13 |
公开(公告)号: | CN108427753A | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 史宇清;朱跃龙 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京业腾知识产权代理事务所(特殊普通合伙) 32321 | 代理人: | 郑婷 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征向量 目标对象 数据挖掘 类目标 回归模型 构建 样本 粗糙 筛选 数据处理流程 分类目标 目标数据 属性数据 数据迭代 数据集中 数据筛选 特性向量 综合特征 数据集 判定 挖掘 记录 优化 统计 | ||
1.一种新的数据挖掘方法,其特征在于:所述数据挖掘方法包括下列步骤:
步骤1:根据目标数据集中的记录统计每个目标对象的特征向量以构成粗糙数据集,每个所述特征向量包括其所对应的目标对象的至少一个属性数据的值;
步骤2:从所述粗糙数据集中筛选出所有已知的第一类目标对象所对应的特征向量,并对筛选出的特性向量执行数据筛选(确定特征向量中各个元素的权重值,设权重值为L,元素即特征向量的组成部分对数据挖掘的重要性参数为b,则L=b2,对特征向量进行修正),最后获得特征向量的样本;
步骤3:对数据迭代处理,迭代的目的是为了得到一个满足标准的特征向量集合,根据目标集合的格式设置迭代矩阵,随机选择符合要求的迭代矩阵,通过循环迭代进行修正,逐步靠近目标;将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合,当第二偏移率大于第一偏移率时,修订迭代矩阵,重新进行迭代;
步骤4:基于所述样本构建回归模型,并随之使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象。
2.根据权利要求1所述新的数据挖掘方法,其特征在于:所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值。
3.根据权利要求2所述新的数据挖掘方法,其特征在于:所述数据筛选包括根据预定的标准从筛选出的特性向量中过滤掉噪点。
4.根据权利要求3所述新的数据挖掘方法,其特征在于:所述步骤4进一步包括抽取所述样本中第一部分作为训练样本以构建所述回归模型;抽取所述样本中的第二部分作为测试样本以测试已构建的回归模型;抽取所述样本中的第三部分作为应用样本以测试已构建的回归模型稳定性。
5.根据权利要求4所述新的数据挖掘方法,其特征在于:所述步骤4进一步包括在构建所述回归模型之前对每个样本中的每个字段执行规范化操作,其包括:(1)处理缺失值;(2)处理奇异值;(3)对离散型的字符型字段进行重新编码;(4)对每个样本中的每个字段以z-score方式进行规范化,以消除量纲不一致的影响。
6.根据权利要求5所述新的数据挖掘方法,其特征在于:所述步骤4进一步包括在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作,其包括:(1)对连续型的数据以划分区间的方式进行离散化,其中区间之间的划分点是导致目标变量出现明显转折的点;(2)根据WOE值曲线的趋势来判断区间划分结果的优劣,其中如果WOE值曲线是递增、递减或者只有一个转折点的趋势,则确定划分结果是优良的并随之终止离散化操作,否则返回步骤(1)以继续在该区间内进行划分。
7.根据权利要求6所述新的数据挖掘方法,其特征在于:以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象:基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率,并且如果计算出的概率大于预定的分类阈值,则判定该已知的第二类目标对象潜在地属于第一类目标对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810205935.1/1.html,转载请声明来源钻瓜专利网。