[发明专利]一种高维稀疏数据聚类系统及方法有效
申请号: | 200810104817.8 | 申请日: | 2008-04-24 |
公开(公告)号: | CN101266621A | 公开(公告)日: | 2008-09-17 |
发明(设计)人: | 陈云飞;黄勇刚 | 申请(专利权)人: | 北京学门科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/00 |
代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 祁建国;梁挥 |
地址: | 100007北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 稀疏 数据 系统 方法 | ||
技术领域
本发明设计人工智能和数据挖掘,尤其涉及一种基于群体智能的高维稀疏数据聚类系统及方法。
背景技术
高属性维稀疏数据是一类特殊的数据样式。设数据集合U={u1,u2,…,un},对于其中的任一数据ui,具有属性集Ai={a1,a2,…,am}(m通常为大于100的整数)。如果Ai中很大一部分属性的取值为零,则数据集U被称为高属性维稀疏数据。对高属性维数据进行聚类是生活中经常遇到的问题。比如说:一个大型企业销售一、两百件商品,为了分析客户群的购买行为,需要根据订购各种产品的情况对客户进行聚类。此时,客户是聚类的对象,各种产品的订购情况是描述客户特征的属性,由于每个客户往往只订购其中的几件商品。因此,大部分的客户属性取值为0。这种问题就是高属性维数据聚类问题。还有,对学生的能力进行测试,要求学生在备选题库中随机的挑选若干问题进行回答,根据学生的答题情况对学生进行分类等等。诸如这种聚类问题都属于高属性维稀疏数据聚类问题。
高属性维数据聚类问题研究是当今数据挖掘领域面临的10大难题之一(见杨强,吴信东.数据挖掘领域的10大挑战,信息技术与决策国际期刊.2006,Vol.5,No.4 597-604.)。许多聚类方法在属性维数比较低的情况下能够生成质量比较高的聚类结果,但在处理高维数据时却常常会面临“维灾”,难以得到令人满意的结果,有时甚至可能会产生错误的聚类结果。
为求解高属性维稀疏数据聚类问题,CABOSFV聚类方法(武森,高学东等著《高维稀疏聚类知识发现》冶金工业出版社,2003)做了有益的探索。CABOSFV只需要进行一次数据扫描就可以生成聚类结果,且聚类结果不受异常值的影响,是一种高效、快速方法。但方法在实际应用中,其初始参数——集合稀疏差异度阈值b,确定得是否合理,对聚类结果是否有效起决定作用。通常该参数的选取是根据经验或估计的方式来确定,使得该参数本身就具有不确定性,并无法预见最终的聚类结果模式。
本发明源于群体智能。群体智能这个概念来自对飞鸟、蜜蜂和蚂蚁的观察。每只飞鸟、蜜蜂或蚂蚁的智能并不高,看起来也没有集中的指挥控制,但它们却能协同工作,建起坚固、漂亮的巢穴,搜集食物,抚养后代,依靠群体的合作表现出超出个体能力的智能。通过对这些群居昆虫的行为进行研究模拟,一系列用于解决计算机传统问题和实际应用问题的新方法也相继产生。这些方法被称为群体智能。许多专家学者都为群体智能下过定义,如美国科学家WhiteTony对群体智能的定义是:“群体智能是一组非智能且具有有限个体能力的主体通过合作表现出集体的智能行为的特性”。无独有偶,意大利科学家Bonabeau等人认为:“[群体智能是]任何受群居的昆虫群和其它动物群的集体行为所启发的方法设计和分布式问题-解决的方法”。
群体智能最早是1989年由Gerardo Beni、Suzanne Hackwood和Jing Wang在研究细胞机器人系统框架下仿真、自组织主体的特性时所提出的。1999年出版的《群体智能:从自然到人工系统》标志着群体智能正式确立为现代计算机科学的一个研究方向。之后群体智能的研究得到了蓬勃发展。国外的研究现状有:国际会议,如:Marco Dorigo等人从1998年开始组织了两年一次的关于群体智能国际会议。1999年进化计算大会召开了蚁群方法专题会议。还有刊物:《下一代计算系统》在2000年为蚁群方法作了一次专辑。一些有影响的刊物如《科学美国人》(Scientific American)、《自然》(Nature)分别在2000年3月和7月刊登文章介绍蚁群方法和群体智能。IEEE进化计算汇刊也于2002年出版了蚁群方法和群体智能专辑。还有专门的研究机构,如:美国的研究组织SDG(Swarm Development Group),他们开发的SWARM软件包为基于多主体的建模提供了一个基础平台。在加州工学院专门开设了群体智能的课程。由欧洲联盟资助的群体智能相关研究项目SWARM-BOTS于2001年在欧洲多个研究机构启动,它的主要目标是研究设计并实现自组织及自装配(self-assembling)装置,其理论基础就是群体智能和蚁群方法的近期研究成果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学门科技有限公司,未经北京学门科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810104817.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗菌涂料及其制备方法
- 下一篇:延长轧机轴承使用寿命的热装工艺
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置