[发明专利]一种基于直接区分序列挖掘的不确定数据分类方法在审
申请号: | 201811207644.2 | 申请日: | 2018-10-17 |
公开(公告)号: | CN109447138A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 赵宇海;印莹;刘陆洋;王国仁 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2458 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 李晓光 |
地址: | 110169 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据分类 序列结果 序列挖掘 标签 结果集 数据集 序列检测算法 支持向量机 最小支持度 满足条件 模式挖掘 模式增长 生成模式 信息增益 初始化 子序列 概率 导出 枚举 削减 挖掘 分类 补充 成熟 检查 | ||
1.一种基于直接区分序列挖掘的不确定数据分类方法,对给定的不确定数据集UTD,其特征在于包括以下步骤:
1)初始化类标签InitializeLabel(),给出类标签集C{c1,c2,…,cn};
2)在类标签集下,基于给定的信息增益阈值导出最小支持度阈值:min_sup=f(maxIG),即利用最小支持度的设定算法MinSupGen求出最小支持度阈值;
3)在最小支持度阈值下采用基于前缀投影的模式增长策略进行子序列枚举,生成模式候选x:
x=PrefixSpanGrowth(X),X为前缀投影序列;
4)对生成的模式候选x挖掘其中的区分序列,利用IGMine算法和ECMine算法来进行区分序列的初始挖掘工作,通过Prune削减策略进行空间削减,生成最终的区分序列结果集Rs;
5)对区分序列结果集Rs检查,利用闭序列检测算法ClosureChecking判断Rs中的每个候选区分序列是否为概率频繁闭序列;
6)若候选区分序列为概率频繁闭序列,则将满足条件的候选区分序列加入结果集RsTmp中;
7)最后结合基于规则的分类方法或支持向量机已有的成熟数据分类方法,完成不确定数据集UTD的数据分类。
2.按权利要求1所述的基于直接区分序列挖掘的不确定数据分类方法,其特征在于:步骤2)中,由信息增益阈值导出最小支持度阈值:min_sup=f(maxIG),利用最小支持度的设定算法MinSupGen求出最小支持度阈值,具体如下:
201)通过以下公式计算理论上信息增益上限IGub与支持度θ的关联函数:
f=IGub(θ),IGub(C|X)=H(C)-Hlb(C|X),变量X为给定的序列,Hlb(C|X)为H(C|X)的下限,C为类标签,H(C)为熵,H(C|X)为条件熵,IGub(C|X)为信息增益上限;
202)给定信息增益阈值maxIG;
203)结合步骤201)得到的公式寻找θ*,使其满足公式θ*=argmax{θ|(IGub(θ)≤maxIG)};
204)根据步骤203)得出的θ*,设定最小支持度min_sup=θ*。
3.按权利要求1所述的基于直接区分序列挖掘的不确定数据分类方法,其特征在于:步骤3)中,采用基于前缀投影的模式增长策略进行子序列枚举,生成模式候选x=PrefixSpanGrowth(X),具体为:
301)随机给定一个概率频繁模式z;
302)建立一个元素表T|z,用于存储那些有机会使z的扩展模式ze成为概率频繁模式的序列;
303)调用ProCal算法,用于验证一个模式是否概率频繁,ProCal算法的输入为向量vecz,该向量的每个元素为表示序列z在si∈S上的概率值;S为不确定数据集的若干序列,si为其中一条序列,其中变量i代表序列个数,每条序列si又由若干序列实例sij构成,变量j为序列实例个数;
304)利用公式计算的值,即向量vecz中vecz[i]的值;
305)根据ProCal算法求出序列z的支持度分布函数pmfz,将其记作fz(c),其中c代表支持度;
306)利用公式计算出序列z在数据集上的频繁概率,其中Fz为累积分布函数,且
307)如果Pr{sup(z)≥min_sup}≥pt成立,pt为最小概率阈值,则添加一个元素e来扩展概率频繁模式z,转向步骤304);
308)如果Pr{sup(z)≥min_sup}≥pt不成立,则直接生成模式候选x。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811207644.2/1.html,转载请声明来源钻瓜专利网。