[发明专利]基于网格快速搜寻密度峰值的教育数据聚类方法有效
申请号: | 201610668504.X | 申请日: | 2016-08-15 |
公开(公告)号: | CN106339416B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 张明新;孙昊;郑金龙;戴娇;彭颖;王子清 | 申请(专利权)人: | 常熟理工学院 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张俊范 |
地址: | 215500 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于网格快速搜寻密度峰值的教育数据聚类方法,包括将整个数据集划分成若干个网格单元,分别计算各网格单元的密度,并向大密度的网格单元进行扩展,进而形成较大的网格单元合集,形成数据分区,然后运用基本CFSFDP算法分别对这些分区进行局部聚类,最后将得到的子类进行合并。本发明只关注各个数据点之间的相似性度量且无需指定数据集的中心点,确定类中心点的方案简洁而且精准,保持了CFSFDP算法的快速和高效,同时具有较高聚类质量。 | ||
搜索关键词: | 基于 网格 快速 搜寻 密度 峰值 数据 方法 | ||
【主权项】:
1.一种基于网格快速搜寻密度峰值的教育数据聚类方法,其特征在于,依次包括以下步骤,步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集,所述数据集包括学生在校学习和生活的若干属性,所述属性包括学生个人信息,学生选课成绩信息,学生的毕业情况信息,把所述信息的子属性当作聚类算法的输入属性,所述子属性包括学号 、成绩、性别、政治面貌、民族、籍贯和考生类别,设每个所述子属性上的值在区间[li,hi)中,i=1,2,…,d,d为自然数,则S=[l1,h1)×[l2,h2)×…×[ld,hd)构成数据集;步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元,对于每一维的网格单元,保证取值区间都是左闭右开的,所述每一个维度为每个所述子属性;步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标,所述数据点为所述数据集中的子属性的值;步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值=dc ,根据决策图确定聚类中心及其个数;步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;步骤7:假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;步骤8:计算类间相似度,合并两个满足类间相似条件的类;步骤9:输出聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常熟理工学院,未经常熟理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610668504.X/,转载请声明来源钻瓜专利网。
- 上一篇:天麻保健凉茶
- 下一篇:一种治疗Ⅱ、Ⅲ痔疮的痔疮散及制备方法