[发明专利]一种基于聚类的常态模式提取方法及系统有效
申请号: | 201410356933.4 | 申请日: | 2014-07-24 |
公开(公告)号: | CN104156402B | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 王电;陈庆彬;黄煜可;王雷 | 申请(专利权)人: | 中国软件与技术服务股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余长江 |
地址: | 100081 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 常态 模式 提取 方法 系统 | ||
技术领域
本发明涉及一种常态模式提取系统,尤其涉及一种基于聚类的常态模式提取方法及系统。
背景技术
在现实生活中,我们经常需要对一组样本数据进行分类。常用的处理方法有两种:
第一种分类方法,基于经验确定一些分类的指标(属性、属性值)并按照这些指标将样本数据分类,例如将一群人分为“青年”、“中年”、“老年”三类,就是基于属性“年龄层”做出的。这种分类方式强烈的依赖于分类人的经验,具有较强的主观色彩,使得不同人对同一组样本数据得到的分类结果可能有较大不同,而且难以确定究竟哪种分类更加科学。
第二种分类方法,基于数据挖掘聚类分析的聚类结果,将聚类结果直接作为分类结果,这种方法具有较好的客观性,但存在以下不足:
(1)主流的聚类算法没有给出确切的分类标准,基于距离得到的聚类簇中,不同样本的属性值混杂,没有确切的规律,可能某个簇的100个样本中99个都是“性别=男性”,仅有1个是“性别=女性”,使得分类结果的实践指导意义较差。
(2)对于一类复杂的趋势数据样本,例如某超市每天的顾客购物情况,使用聚类分析得到的簇,不能确定相邻两天得到的簇之间的关系,从而难以研究相关簇之间的时间序列关系。
(3)主流的聚类算法属于随机算法,基于随机的初值,聚类结果也随着初值变化,聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于聚类的常态模式提取方法及系统,本发明的常态模式划分方法是基于聚类分析的结果,具有较强的客观性,又有效的克服了主流聚类算法的不足。
本发明通过对样本数据进行聚类分析,将所得“簇”作为已知的分类标准(标签),提取属性值辨识度、属性辨识度、属性值重要性、属性重要性等“属性对相似性的影响力”的四项指标,再使用全新的常态模式提取方法获取“常态模式”,并给出常态模式的命名方法。
本发明的技术方案为:
一种基于聚类的常态模式提取方法,其步骤为:
1)数据采集,将待分析的样本数据从分布在各地的终端数据库中传输汇总到中央数据库;
2)对样本数据进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注;
3)计算样本每一属性的属性辨识度以及每一属性重要性;其中,
属性辨识度的计算方法为:选取样本一属性i的一属性值,计算具有该属性值的样本属于簇j的条件概率值,以及未增加该属性值条件时样本属于该簇j的概率值;将所述条件概率值与所述概率值的差值作为该属性值对于该簇j的属性值辨识度;将该属性值对于所有簇的属性值辨识度的平方平均数作为该属性值的属性值辨识度;然后根据该属性i所有属性值的属性值辨识度计算该属性i的属性辨识度;
属性重要性的计算方法为:将样本属性i取属性值a时属于簇j的样本量乘以该属性值a对于该簇j的辨识度,得到该属性值a对于该簇j的属性重要性;将该属性值对于所有簇的属性值重要性的平方平均数作为该属性值的属性值重要性;根据属性i的所有属性值重要性计算该属性i的属性重要性;
4)根据属性辨识度和属性重要性进行排序,选择属性重要性最高的属性或属性辨识度最高的属性对采集的样本进行划分,得到常态模式。
5)常态模式命名和发布。
进一步的,对该属性i所有属性值的属性值辨识度平方平均数作为该属性i的属性辨识度。
进一步的,采用基于条件概率和贝叶斯算法计算所述辨识度。
进一步的,分别选用属性重要性最高的属性、属性辨识度最高的属性对样本进行划分,得到常态模式;或者选取划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对样本进行划分,得到常态模式。
进一步的,步骤3)中计算所述属性重要性的方法为:将属性i所有属性值的属性重要性的平方平均数作为该属性的属性重要性;然后步骤4)根据属性辨识度和属性重要性进行排序,选择属性重要性或属性辨识度最高的属性对样本进行划分。
进一步的,根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。
进一步的,命名所述常态模式的名称的方法为:在得到所述常态模式的过程中,记录每一所述常态模式所用到的属性和属性值;将第一所用的属性和或属性值记录为根节点,最后一次所用的属性和或属性值记录为叶节点;然后沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国软件与技术服务股份有限公司,未经中国软件与技术服务股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410356933.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于语义映射空间构建的图像检索方法
- 下一篇:数据存储系统