[发明专利]一种基于直接区分序列挖掘的不确定数据分类方法在审
申请号: | 201811207644.2 | 申请日: | 2018-10-17 |
公开(公告)号: | CN109447138A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 赵宇海;印莹;刘陆洋;王国仁 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2458 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 李晓光 |
地址: | 110169 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于直接区分序列挖掘的不确定数据分类方法,对不确定数据集UTD,首先初始化类标签,给出类标签集;在类标签集下,基于给定的信息增益阈值导出最小支持度阈值:采用模式增长策略进行子序列枚举,生成模式候选x,挖掘其中的区分序列,并采用削减策略,生成最终的区分序列结果集Rs;再对区分序列结果集Rs检查,利用闭序列检测算法判断Rs中的每个候选区分序列是否为概率频繁闭序列;若是概率频繁闭序列,则将满足条件的区分序列加入结果集RsTmp;最后结合基于规则的分类方法或支持向量机已有的成熟数据分类方法,完成数据分类。本发明作为不确定数据集上区分模式挖掘补充,显著提高效率,结果集更加简洁。 | ||
搜索关键词: | 数据分类 序列结果 序列挖掘 标签 结果集 数据集 序列检测算法 支持向量机 最小支持度 满足条件 模式挖掘 模式增长 生成模式 信息增益 初始化 子序列 概率 导出 枚举 削减 挖掘 分类 补充 成熟 检查 | ||
【主权项】:
1.一种基于直接区分序列挖掘的不确定数据分类方法,对给定的不确定数据集UTD,其特征在于包括以下步骤:1)初始化类标签InitializeLabel(),给出类标签集C{c1,c2,…,cn};2)在类标签集下,基于给定的信息增益阈值导出最小支持度阈值:min_sup=f(maxIG),即利用最小支持度的设定算法MinSupGen求出最小支持度阈值;3)在最小支持度阈值下采用基于前缀投影的模式增长策略进行子序列枚举,生成模式候选x:x=PrefixSpanGrowth(X),X为前缀投影序列;4)对生成的模式候选x挖掘其中的区分序列,利用IGMine算法和ECMine算法来进行区分序列的初始挖掘工作,通过Prune削减策略进行空间削减,生成最终的区分序列结果集Rs;5)对区分序列结果集Rs检查,利用闭序列检测算法ClosureChecking判断Rs中的每个候选区分序列是否为概率频繁闭序列;6)若候选区分序列为概率频繁闭序列,则将满足条件的候选区分序列加入结果集RsTmp中;7)最后结合基于规则的分类方法或支持向量机已有的成熟数据分类方法,完成不确定数据集UTD的数据分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811207644.2/,转载请声明来源钻瓜专利网。