[发明专利]数据分析中的数据过滤规则建模方法有效

申请号：	201910401717.X	申请日：	2019-05-14
公开（公告）号：	CN110175191B	公开（公告）日：	2023-06-27
发明（设计）人：	周鹏程;荆一楠;何震瀛;王晓阳	申请（专利权）人：	复旦大学
主分类号：	G06F16/2457	分类号：	G06F16/2457;G06F16/2458;G06F16/248
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;陆尤
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于数据分析技术领域，具体为一种数据分析中的数据过滤规则建模方法。本发明的数据过滤规则建模方法主要包含三个部分：（1）数据列分析过滤（2）数据范围分析过滤（3）结果集自动可视化。本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型，利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集，分析与挖掘数据项之间联系。
搜索关键词：	数据分析中的过滤规则建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种数据分析中的数据过滤规则建模方法，具体步骤如下：（1）给定由大量数据组成的数据集D，采用随机森林特征选择的方法，根据用户是否指定了关键数据，计算数据列的重要度；具体流程如下：（1.1）重要性评分，用VIM来表示；将Gini指数用GI来表示，假设有m个数据列X₁，X₂，X₃，...，X_m，要计算出每个列X_j的Gini指数评分VIM_j^(Gini)，亦即第j个列在随机森林（RF）所有决策树中节点分裂不纯度的平均改变量；Gini指数为：；其中，K表示m节点在RF所有决策树中有K个类别，p_mk表示节点m中类别k所占的比例，p_mk′表示节点m中类别k所占的比例的补值；（1.2）数据列X_j在节点m的重要性，即节点m分枝前后的Gini指数变化量为：；和分别表示分枝后两个新节点的Gini指数；（1.3）数据列X_j在决策树i中出现的节点在集合M中，那么X_j在第i颗树的重要性为：；（1.4）随机森林里面共有n颗树，则数据列X_j的重要性为：；（1.5）根据算出重要性排序，返回给用户分析过滤结果为最重要的两列数据，记为A、B， A的重要性排序高于B；（2）数据范围分析过滤；具体流程如下：（2.1）首先根据A、B两列数据类型分为三类：数值型N，离散值型X，时序型T；对于数值型N，首先做离散化处理，具体做法是对数据进行分箱处理得到每个箱子记做n′，计算每个分箱的计数记做CNT(n′)；对于离散值型X，计算每个离散值的计数记做CNT(x)；时序型T，根据数据列T的时序数据范围划分时间片段箱，数据列T经过分箱处理得到每个时序箱记做t′；（2.2）根据三个不同的数据类型形成两种数据分析过滤组合模式，对数据集D进行数据过滤分析；具体为：（2.2.1）A为时序型数据，B为离散值型或数值型；A依据(2.1)得到的时序箱t′的单位选取适当的近段时间作为第一个过滤条件t_recent；经过A列的条件筛选后的数据集记为为D^*，数据列B经过过滤得到离散数据列B^*的x₁^*，x₂^*，...，x_k^*或者数值数据列B^*将重新分箱得到（n₁^*）′，（n₂^*）′，...，（n_k^*）′，其中箱子数量为k，以x^*/（n^*）′中的计数最大的三个值CNT(x^*)_top3/CNT(（n^*）′)_top3所在的三个离散数据x_max^*或箱（n_max^*）′的数值范围作为第二个过滤条件；以两个过滤条件t_recent和x_max^*/（n_max^*）′的交集t_recent∩x_max^*/（n_max^*）′作为分析过滤组合模型的分析过滤条件，对数据集D进行数据过滤分析；（2.2.2）A为离散值型或数值型，B为时序型数据；A计算每个离散值量或箱的CNT(x)/CNT(n′),选取计数最多的五个常量x_top5或箱(n_top5)′对应的数值范围作为第一个过滤条件；经过A列的条件筛选后的数据集为D^*；选取A中计数最多的常量x_max或者箱（n_max）′所对应数据列B^*的时序范围t_max作为第二个过滤条件；以两个过滤条件x_top5/(n_top5)′和t_max的交集x_top5/(n_top5)′∩t_max作为分析过滤组合模型的分析过滤条件，对数据集D进行数据过滤分析；（3）为了将经过分析过滤的数据呈现给用户，将经过步骤（1）、（2）分析过滤得到的结果数据集自动地可视化；具体流程如下：（3.1）将结果数据集可视化得到列X的基数值d(X)，列X的最大值max(X)，最小值min(X)，列X的记录条数|X|，列X的数据类型type（X），列X每个箱数据x′与其对应x′的计数CNT(x′)，每个箱数据x′与其对应的计数CNT(x′)的相关系数correlation(x,CNT(x′))；（3.2）根据（3.1）中得到的列类型type（X）定义一套剪切规则；当列x的数据类型为时序型：可视化图表为柱状图、折线图；当列x的数据类型为离散值型或数值型：可视化图表为柱状图、饼状图、散点图；（3.3）采用数据分析方法‑相对信息熵来确定从步骤（1）、（2）分析过滤后得到的结果数据集如何自动化的可视化；该方法的核心思想是计算每个数据列X可视化为各种图表的信息熵相对于标准化的图表信息熵的比值，记做C（X）₁，C（X）₂，...，C（X）_k；比较每个相对信息熵的大小，最大值C（X）_max对应的图表类型就是数据列X的可视化类型；具体如下：（3.3.1）柱形图中，柱子的高度差用于提高用户对于数据差异的辨识度；计算柱状图的相对信息熵使用列X的基数值d(X),|d(X)|表示列X的基数d(X)的值：（3.3.2）饼图可展示多组数据，表现各组数据占总比情况；在饼状图中，需要有区分度的CNT（x′）来凸显各部分的占比，为此引入香农熵：，作为判定标准的部分；其中y表示CNT(x')的每个值，P(y)表示y的数量占比值，即y在CNT(x')的发生概率；（3.3.3）折线图可以反映同一事物在不同时间里的发展变化的情况；当数据CNT（x′）与x′符合某种分布：线性分布、指数分布、对数分布或低次幂分布时，分布的表达式记做distribution(x′,CNT（x′）)，信息熵C（X）为1；否则，信息熵C（X）为0；C（X）= distribution(x′,CNT（x′）)（3.3.4）散点图中，通过坐标轴，表示两个变量之间的关系；使用相关系数correlation (x′,CNT(x′))计算；C（X）= correlation (x′,CNT(x′))（3.4）通过比较列X在各种可视化图表下得到相对信息熵序列，得到相对信息熵最大值C（X）_max；步骤（1）、（2）分析过滤后得到的结果数据集采用C（X）_max对应的图表类型进行可视化展现。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910401717.X/，转载请声明来源钻瓜专利网。

上一篇：房源推荐方法、装置、计算机设备及计算机可读存储介质
下一篇：一种基于主题序列模式的旅游产品推荐方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]数据分析中的数据过滤规则建模方法有效

专利文献下载