[发明专利]一种不完备信息系统的动态约简方法在审
申请号: | 201810066992.6 | 申请日: | 2018-01-24 |
公开(公告)号: | CN108280478A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 陈一舟;王加阳 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N5/00 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 王新生 |
地址: | 410006 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种不完备信息系统的动态约简方法,其基于Bazan等人提出的动态约简模型,将动态约简的定义与性质推广到覆盖决策信息系统,使其能够处理不完备决策表,得到更加稳定的约简结果,并使约简规则具有更好的预测能力,针对动态约简中核心的子表抽样问题,提出信息熵稳定性参数,并给出了一种新的抽取动态约简子表族的方法,实验结果表明,新提出的抽样方法能够大大减少计算量,并且可以得到符合要求的约简结果,动态约简在处理大数据信息系统方面,具有很强的抗噪性及鲁棒性,本文的研究进一步拓宽和完善了动态约简理论。 | ||
搜索关键词: | 约简 信息系统 决策信息系统 抽样 稳定性参数 预测能力 大数据 计算量 决策表 抗噪性 鲁棒性 信息熵 子表 抽取 覆盖 研究 | ||
【主权项】:
1.一种不完备信息系统的动态约简方法,其特征在于,具体步骤如下:(1)覆盖信息系统的动态约简定义:1)S=(U,C∪{d})是一个覆盖近似决策表,C为条件属性集合,{d}为决策属性集合,ρ(S)是S的所有子决策系统所构成的集合,S所有约简所构成的集合是S的约简集,记为RED(S);S的F族动态约简定义如下:将F族动态约简的概念一步步进行推广,首先放宽动态约简必须是原决策表的约简这一要求;2)S=(U,C∪{d})是一个覆盖近似决策表,S的广义动态约简定义如下:将广义动态简约的概念进行进一步的推广,认为随机抽样子表中出现频率最高的约简就是决策表中最稳定的约简;3)S=(U,C∪{d})是一个覆盖近似决策表,S的(F‑ε)广义动态约简定义如下:其中,是约简集C相对于F的稳定系数;ε是约简精度阈值,ε∈(0.5,1]];因此,有如下定理成立:①如果F={S},那么GCDRε(S,F)=GCDR(S,F)=DCR(S,F)=RED(S) 公式(4);②如果ε1<ε2,那么③GCDR1(S,F)=GCDR(S,F) 公式(6);④⑤(2)F族抽样分析:1)令W是包含所有论域对象的覆盖信息系统,论域中所有覆盖决策子表的集合为G,某一约简R是G中的任一子表的约简的概率为PG(R);GR={B∈G:R∈RED(B)} 公式(9);则认为,某一约简R在论域中子表出现满足如下二项分布:根据参数估计理论,抽样子表样本中出现约简R的概率就是PG(R)的极大似然估计量;根据中心极限定理,当G中对象足够多时,满足标准正态分布,故其中,tα/2和‑tα/2的值均从标准正态分布表中查询得到;从公式(12)知,故,MLE(PG(R))作为对PG(R)的估计量的误差为,给定MLE(PG(R))的最大误差是δ,则故,由(F‑ε)广义动态约简定义得知,若要求约简R符合要求,则MLE(PG(R))≥ε>0.5,ε为约简精度阈值,由函数y=x(1‑x)的增减性得知,2)属性集Q(U/RQ={Y1,Y2,...Yl})相对于属性P(U/RP={X1,X2,...Xk})的条件信息熵E(Q|P)定义为有如下定理:①E(Q|P)∈[0,+∞);②当E(Q|P)=0时,属性集Q的决策能力与决策集P完全相同;③E(Q|P)=1时,属性集Q相对于属性集P毫无决策能力;集族的决策熵定义如下:3)设P={A1,A2,...Ak}是一给定覆盖决策表S=(U,C∪{d})的子集族,P相对于决策属性{d}的决策熵为:设F∈ρ(S),S'=(US',C∪{d})为全样本决策表,当时,认为新决策表B的加入提高了F族的决策能力;即,当时,从信息熵的观点,则认为抽取出来的子表符合抽样要求;4)S=(U,C∪{d})是一个覆盖近似决策表,其中B∈F,UB∈U,US'∈U,子表族F的信息熵稳定性参数从公式(19)知,HCS(F,B)参数具有如下性质:①0≤HCS(F,B)≤1,取0.5≤HCS(F,B)≤1;②当抽取子集完全能代表S'的决策能力时,HCS(F,B)=1;(3)子表族F族大小的确定方法如下:1)输入:①原决策表S=(U,C∪D);②(F‑ε)广义动态约简的约简精度阈值ε(如ε=0.9),抽样最大误差δ(如δ=0.05),置信度1‑α(如1‑α=0.9);③子表族F的信息熵稳定性参数HCS(F,B)的阈值(如(HCS(F,B))0=0.9);2)输出:①F族的大小card(F);②F族中所有的子表:A、从论域U中随机抽出一个F族,B、计算HCS(F,B)的值;C、如果HCS(F,B)≥(HCS(F,B))0,则执行下述步骤F,否则执行下述步骤D;D、从1到card(U)中随机选择一个数,作为抽取子表B所包含的对象数,从而抽取子表B,如果抽取的子表在F族中已存在,则重新抽取;E、将子表B添加到F族中,card(F)=card(F)+1,执行上述步骤B;F、输出card(F)和F族中所有的子表;G、结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810066992.6/,转载请声明来源钻瓜专利网。