[发明专利]数据分析中的数据过滤规则建模方法有效
申请号: | 201910401717.X | 申请日: | 2019-05-14 |
公开(公告)号: | CN110175191B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 周鹏程;荆一楠;何震瀛;王晓阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/2458;G06F16/248 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分析 中的 过滤 规则 建模 方法 | ||
本发明属于数据分析技术领域,具体为一种数据分析中的数据过滤规则建模方法。本发明的数据过滤规则建模方法主要包含三个部分:(1)数据列分析过滤(2)数据范围分析过滤(3)结果集自动可视化。本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型,利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集,分析与挖掘数据项之间联系。
技术领域
本发明属于数据分析技术领域,具体涉及数据分析中的数据过滤规则建模方法。
背景技术
在数据无处不在的时代,用户的决策越来越受到数据的驱动。通常,对于数据分析结果的不同往往能显著影响决策过程。选择不当数据,不管是有意的还是无意的,可能导致错误、误导或“脆弱”的决策。尤其对于数据分析毫无数据分析经验的用户来说,这些不好的数据分析的结果可能会导致严重的经济损失。所以引导用户进行良好的数据选择能带给用户质量更好的数据分析探索体验。
为了使没有数据分析经验的用户能够尽可能消除容易出错的数据探索过程和繁琐的分析过滤条件设置,直截了当的得到良好的数据分析过滤效果。毫无疑问的是我们需要一个标准化的流程来决定该如何进行数据的过滤分析选择,如何根据数据的特征自动化的进行数据过滤规则建模。
发明内容
本发明的目的是对于交互式数据探索的场景,提供一种数据过滤规则建模方法,以便快速对于数据集上的数据进行分析挖掘,方便用户对于数据的探索和分析。
对于数据集上的推荐规则建模,我们所期望的特性如下:
1.可解释性:如何合适地在一个可视化系统里面产生推荐;
2.可行性:产生推荐应具有足够的分析意义,需要能挖掘出数据之间的潜在关联;
3.质量性:由于用户探索的特性,因此模型的构建具有高效性、鲁棒性。
本发明提供的数据过滤规则建模方法,具体步骤如下:
(1)给定由大量数据组成的数据集D,采用随机森林特征选择的方法,根据用户是否指定了关键数据,计算数据列的重要度。具体流程如下:
(1.1)重要性评分(variable importance measures),用VIM来表示,将Gini指数用GI来表示,假设有m个数据列X1,X2,X3,...,Xm,现在要计算出每个列Xj的Gini指数评分VIMj(Gini),亦即第j个列在随机森林(RF)所有决策树中节点分裂不纯度的平均改变量;其中Gini指数:
其中,K表示m节点在RF所有决策树中有K个类别,pmk表示节点m中类别k所占的比例,pmk′表示节点m中类别k所占的比例的补值;直观地说,就是随便从节点m中随机抽取两个样本,其类别标记不一致的概率。
(1.2)数据列Xj在节点m的重要性,即节点m分枝前后的Gini指数变化量为;和分别表示分枝后两个新节点的Gini指数。
(1.3)数据列Xj在决策树i中出现的节点在集合M中,那么Xj在第i颗树的重要性为:
。
(1.4)随机森林里面共有n颗树,则数据列Xj的重要性为:
。
(1.5)根据算出重要性的排序,返回给用户分析过滤结果为最重要的两列数据,记为A、B, A的重要性排序高于B。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910401717.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置