[发明专利]一种基于扩展熵信息瓶颈理论的聚类方法无效

专利信息
申请号: 200810139542.1 申请日: 2008-08-22
公开(公告)号: CN101655847A 公开(公告)日: 2010-02-24
发明(设计)人: 孙占全 申请(专利权)人: 山东省计算中心
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 250014*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 扩展 信息 瓶颈 理论 方法
【说明书】:

技术领域

发明涉及数据挖掘领域,特别涉及聚类分析。

背景技术

聚类分析是数据挖掘领域的重要研究内容,旨在将数据集合划分为若干类的过程,使得 类内差异小,类间差异大。通常用数据之间的距离来描述相似度,距离越大,相似度越小, 反之则越大。聚类分析应用在模式识别、数据分析、图像处理、智能交通、医学等领域,用 途相当广泛。已经形成了很多有效的聚类方法,常用的有K-均值法、k中心点法、自组织神 经网络、Bayes神经网络、Fisher聚类等。不同的聚类方法出发点不同,主要体现在度量样本 或变量之间的距离测度上,K-均值聚类法与k中心点法度量两个变量之间的距离都是用欧几 里德距离,或者用加权的欧几里德距离。这种聚类方法只是以简单的欧氏距离不适合变量之 间存在复杂的非线性关系的问题。自组织神经网络都是以非线性的空间距离来度量样本或变 量之间的相关性,通过不断调整聚类中心达到聚类目的,但这些方法没有考虑变量的统计特 性。Bayes神经网络聚类是将隐含单元看作聚类数,通过分析特征变量与隐含单元的条件概 率对数据进行聚类,该分类方法适用的范围比较广,在不同领域都得到了广泛的应用。但该 方法需要一定的先验经验确定其先验概率分布,而且运算量非常大,当变量很多的情况下很 难得到最优的聚类结果。

信息瓶颈理论是由Tishby等人在1999年根据Shannon熵信息失真率理论提出的数据压 缩方法,接下来的几年里,基于信息瓶径理论的无监督聚类方法得到了广泛的研究,该方法 是从变量合并前后信息损失量一个全新的角度来分析变量的聚类问题,是一种适合于复杂聚 类问题的一种新方法,现已被用于图像、文本、星系等复杂的聚类问题,得到了令人满意的 结果。由于该方法是基于Shannon熵的,因此必须通过统计分析得到变量的概率分布情况, 当特征变量只是一个数值而无法统计出其概率时,该方法无法使用,针对这种情况,本发明 提出了基于扩展熵信息瓶颈理论的聚类方法。扩展熵是基于数值比值的一种熵的定义形式, 适合于分析数值集合的不确定性问题。

基于扩展熵信息瓶颈理论的聚类方法可应用于交通流的时间段划分,从交通流的马鞍型 曲线可以看出,在一天中,不同时段的交通流特性有很大的区别,如果将所有数据同时考虑, 将很难建立精确的交通流预测模型。根据交通流的不同模式将时间进行分段,对每个时段来 建立相应的交通流预测模型将会提高相应的预测精度。如何对一天的交通流进行时间分段是 个关键的问题,不能只根据交通流曲线主观划分。目前常用的划分方法是Fisher在1958年 提出的有序样本聚类方法,但由于在该方法中通常选择的距离测度为欧几里德距离,很难体 现交通流数据的非线性复杂关系,而且,在该方法中将一天划分成几段,没有一个客观的标 准,需要人为的判断。

基于扩展熵信息瓶颈理论的聚类方法可用于中医的辨证。中医是中华的瑰宝,拥有3000 多年的历史。辨证是中医的核心理论,证侯要素是中医辨证的基本要素。辨证通常依赖于医 生的经验,缺乏一定的客观基础,因此很多研究人员开始用现代技术来研究中医。因此用客 观的方法来确定证侯要素是中医现代化急需解决的问题。这就需要我们只根据中医临床收集 的病人症状数据,根据其数据内在的相关性,将相关性大的症状组合找出来,结合中医专家 经验,对这些有意义的相关症状组合进行命名,作为症状要素。由于事先没有任何的目标作 为参照,因此该问题属于无监督聚类分析问题。该问题是对特征变量进行聚类,因此基于扩 展熵信息瓶颈理论的聚类方法非常适合该问题的分析。

关于基于扩展熵信息瓶颈理论的聚类方法,聚类数组的扩展熵计算是基础,目前熵的定 义有多种形式,Shannon熵是目前常用的一种熵的定义形式,可以度量变量之间的任意统计 相关性。

基于扩展熵信息瓶颈理论的聚类方法与其它聚类方法相比主要有以下优点:

1)信息熵可以度量变量之间的任意统计相关性,用它作为相关测度进行聚类,能够真实 体现系统变量之间的相关性;

2)扩展熵是以比值代替概率,不受统计特性的限制,而且在信息损失量计算过程中,可 以体现两组变量对应位置之间的相关性;

3)基于扩展熵信息瓶颈理论的聚类方法可以提供一个聚类的客观截尾准则,而现有的方 法中的截尾准则通常是人为指定聚类个数。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心,未经山东省计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810139542.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top