[发明专利]海量数据集上主观兴趣度的关联规则优化算法有效
申请号: | 201310265305.0 | 申请日: | 2013-06-28 |
公开(公告)号: | CN103810371B | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 牛新征;周冬梅;侯孟书;杨健 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 成都华风专利事务所(普通合伙)51223 | 代理人: | 徐丰,杨保刚 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 数据 主观 兴趣 关联 规则 优化 算法 | ||
技术领域
本发明是一种有关海量数据集上主观兴趣度的关联规则优化算法,该方法能够发现大量数据中项集之间有趣的关联或者相关联系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析等,属于关联规则挖掘中的关联规则优化算法领域。
背景技术
对海量数据进行关联挖掘导出的关联规则数量巨大,这给分析、决策人员的判断带来了困难,而且仅基于支持度-置信度框架的传统关联规则挖掘算法并不能指出用户真正感兴趣的规则,给用户对所导出规则的分析带来了不便,规则优化则成为了提升规则质量、发现有价值规则的有效手段。
目前现有的规则优化算法主要从两个方面对关联规则进行优化:
1.客观关联规则优化:一般从规则的结构、集合性质、统计结果、离差模型等入手进行分析,这类方法包括RuleCover算法、冗余删除算法。客观性优化方法能有效删除多余、无效的规则。
2.主观关联规则优化:一般利用领域知识、模板、兴趣度等主观量度对规则进行分析。Piatetsky-Shapiro首先提出了兴趣度问题。Hoschka和Klosgen首次提出模板的概念。离差分析法被提出用来衡量真实结果与期望结果间的距离,而Piatetsky-Shapiro和Matheus把离差与兴趣度相结合,分析了离差的兴趣度。Klemettinen等人在中也提出了规则模板的概念,并使用包含模板和限制模板分别过滤有趣规则和非有趣规则。
虽然客观优化方法删除多余规则的效果明显,但无法实现主观优化方法所带来的优点。从用户需求分析,对主观思路进行研究有以下两点意义:①面对挖掘出来的规则,用户唯一的目标就是去寻找那些特殊的、没有被发现的规则。若仅给出一堆杂乱无序的规则,用户便需要花费较多的时间来分析和发现有价值的规则。②当规则数量成千上万时,用户希望能快速切入主题、发现价值,而不是面对规则无从下手。
同时,模板是主观兴趣度算法中使用到的一个重要的工具,是用户表达含义的载体,但目前基于模板的优化方法一般仅涉及一个模板的分析。兴趣度是规则有趣程度的客观度量,目前基于兴趣度的优化方法一般结合具体领域知识提出相应的兴趣度计算模型,用来衡量规则的有趣程度。
然而,在一般的规则优化方案中,模板使用单一模板进行优化分析,用户含义表达受限;模板类型种类少,部分论文提出限制模板、包含模板这两种模板类型用于过滤与匹配规则。另一方面兴趣度,一般只涉及一种兴趣度类型,分析的细化程度受限;兴趣度计算模型单一、杂乱,优化效果难以评判。
发明内容
本发明针对目前兴趣度优化算法存在的不足:兴趣度计算方法欠妥;用户含义表达受限;领域知识、模板、兴趣度等主观量度未有机结合,本算法提出了一种海量数据集上主观兴趣度的关联规则优化算法对上述不足进行了改进
本发明为解决上述技术问题所采用的技术方案是:
海量数据集上主观兴趣度的关联规则优化算法,其特征在于该优化算法包括:
1-(a).数据获取步骤:为优化算法提供基础数据;
1-(b).用户指定模板步骤:所述模板是用户表达含义的载体,具体地:形如A1...Ai...Ak=>Ak+1,的蕴含式,其中Ai可以是属性名、类名或者C+、C*的表达式,若为C+表示一个或多个类C的实例,若为C*表示零或多个类C的实例;用户选择指定GI模板、RPC模板或者同时指定GI模板和RPC模板;
所述GI模板:用户因项间关系模糊而给出的不确定的知识模板,称为总体印象知识模板,简称GI模板,表示为gi[S1,...,Sm]其中,Si可以是一个属性名、类名或者一条表达式;
所述RPC模板:用户知晓项间关系且明确关系方向而给出的相对合理的知识模板,称为相对精确知识模板,简称RPC,表示为rpc[S1,...,Sm=>V1,...,Vg]其中,Sk可以是一个属性名、类名或者一条表达式;
1-(c).解析模板步骤:根据模板对待优化的关联规则进行扫描计数;
1-(d).获取相关参数步骤:获取模板的相关数据及不匹配度量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310265305.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置