[发明专利]数据分析中的数据过滤规则建模方法有效
申请号: | 201910401717.X | 申请日: | 2019-05-14 |
公开(公告)号: | CN110175191B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 周鹏程;荆一楠;何震瀛;王晓阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/2458;G06F16/248 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据分析技术领域,具体为一种数据分析中的数据过滤规则建模方法。本发明的数据过滤规则建模方法主要包含三个部分:(1)数据列分析过滤(2)数据范围分析过滤(3)结果集自动可视化。本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型,利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集,分析与挖掘数据项之间联系。 | ||
搜索关键词: | 数据 分析 中的 过滤 规则 建模 方法 | ||
【主权项】:
1.一种数据分析中的数据过滤规则建模方法,具体步骤如下:(1)给定由大量数据组成的数据集D,采用随机森林特征选择的方法,根据用户是否指定了关键数据,计算数据列的重要度;具体流程如下:(1.1)重要性评分,用VIM来表示;将Gini指数用GI来表示,假设有m个数据列X1,X2,X3,...,Xm,要计算出每个列Xj的Gini指数评分VIMj(Gini),亦即第j个列在随机森林(RF)所有决策树中节点分裂不纯度的平均改变量;Gini指数为:;其中,K表示m节点在RF所有决策树中有K个类别,pmk表示节点m中类别k所占的比例,pmk′表示节点m中类别k所占的比例的补值;(1.2)数据列Xj在节点m的重要性,即节点m分枝前后的Gini指数变化量为:;和分别表示分枝后两个新节点的Gini指数;(1.3)数据列Xj在决策树i中出现的节点在集合M中,那么Xj在第i颗树的重要性为:;(1.4)随机森林里面共有n颗树,则数据列Xj的重要性为:;(1.5)根据算出重要性排序,返回给用户分析过滤结果为最重要的两列数据,记为A、B, A的重要性排序高于B;(2)数据范围分析过滤;具体流程如下:(2.1)首先根据A、B两列数据类型分为三类: 数值型N,离散值型X,时序型T;对于数值型N,首先做离散化处理,具体做法是对数据进行分箱处理得到每个箱子记做n′,计算每个分箱的计数记做CNT(n′);对于离散值型X,计算每个离散值的计数记做CNT(x);时序型T,根据数据列T的时序数据范围划分时间片段箱,数据列T经过分箱处理得到每个时序箱记做t′;(2.2)根据三个不同的数据类型形成两种数据分析过滤组合模式,对数据集D进行数据过滤分析;具体为:(2.2.1)A为时序型数据,B为离散值型或数值型;A依据(2.1)得到的时序箱t′的单位选取适当的近段时间作为第一个过滤条件trecent;经过A列的条件筛选后的数据集记为为D*,数据列B经过过滤得到离散数据列B*的x1*,x2*,...,xk*或者数值数据列B*将重新分箱得到(n1*)′,(n2*)′,...,(nk*)′,其中箱子数量为k,以x*/(n*)′中的计数最大的三个值CNT(x*)top3/CNT((n*)′) top3所在的三个离散数据xmax*或箱(nmax*)′的数值范围作为第二个过滤条件;以两个过滤条件trecent和xmax*/(nmax*)′的交集trecent∩xmax*/(nmax*)′作为分析过滤组合模型的分析过滤条件,对数据集D进行数据过滤分析;(2.2.2)A为离散值型或数值型,B为时序型数据;A计算每个离散值量或箱的CNT(x)/CNT(n′),选取计数最多的五个常量xtop5或箱(ntop5)′对应的数值范围作为第一个过滤条件;经过A列的条件筛选后的数据集为D*;选取A中计数最多的常量xmax或者箱(nmax)′所对应数据列B*的时序范围tmax作为第二个过滤条件;以两个过滤条件xtop5/(ntop5)′和tmax的交集xtop5/(ntop5)′∩tmax作为分析过滤组合模型的分析过滤条件,对数据集D进行数据过滤分析;(3)为了将经过分析过滤的数据呈现给用户,将经过步骤(1)、(2)分析过滤得到的结果数据集自动地可视化;具体流程如下:(3.1)将结果数据集可视化得到列X的基数值d(X),列X的最大值max(X),最小值min(X),列X的记录条数|X|,列X的数据类型type(X),列X每个箱数据x′与其对应x′的计数CNT(x′),每个箱数据x′与其对应的计数CNT(x′)的相关系数correlation(x,CNT(x′));(3.2)根据(3.1)中得到的列类型type(X)定义一套剪切规则;当列x的数据类型为时序型:可视化图表为柱状图、折线图;当列x的数据类型为离散值型或数值型:可视化图表为柱状图、饼状图、散点图;(3.3)采用数据分析方法‑相对信息熵来确定从步骤(1)、(2)分析过滤后得到的结果数据集如何自动化的可视化;该方法的核心思想是计算每个数据列X可视化为各种图表的信息熵相对于标准化的图表信息熵的比值,记做C(X)1,C(X)2,...,C(X)k;比较每个相对信息熵的大小,最大值C(X)max对应的图表类型就是数据列X的可视化类型;具体如下:(3.3.1)柱形图中,柱子的高度差用于提高用户对于数据差异的辨识度;计算柱状图的相对信息熵使用列X的基数值d(X),|d(X)|表示列X的基数d(X)的值:(3.3.2)饼图可展示多组数据,表现各组数据占总比情况;在饼状图中,需要有区分度的CNT(x′)来凸显各部分的占比,为此引入香农熵:,作为判定标准的部分;其中y表示CNT(x')的每个值,P(y)表示y的数量占比值,即y在CNT(x')的发生概率;(3.3.3)折线图可以反映同一事物在不同时间里的发展变化的情况;当数据CNT(x′)与x′符合某种分布:线性分布、指数分布、对数分布或低次幂分布时,分布的表达式记做distribution(x′,CNT(x′)),信息熵C(X)为1;否则,信息熵C(X)为0;C(X)= distribution(x′,CNT(x′))(3.3.4)散点图中,通过坐标轴,表示两个变量之间的关系;使用相关系数correlation (x′,CNT(x′))计算;C(X)= correlation (x′,CNT(x′))(3.4)通过比较列X在各种可视化图表下得到相对信息熵序列,得到相对信息熵最大值C(X)max;步骤(1)、(2)分析过滤后得到的结果数据集采用C(X)max对应的图表类型进行可视化展现。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910401717.X/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置