[发明专利]一种基于多阶段分层采样的层次聚类方法和系统有效
申请号: | 201310752850.2 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103699678A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 赵朋朋;刘袁柳;吴健;鲜学丰;崔志明 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于多阶段分层采样的层次聚类方法和系统,该方法包括:将随机采样得到的初始样本集作为种子构建分层查询策略,并基于分层的估计方差被最小化原则,为每层查询策略分配相应的样本个数;利用分层查询策略对数据源进行分层采样,得到样本代表性较高的代表性样本集;对代表性样本集中的样本进行聚类,基于聚类所得簇的边界点对数据源进行二次采样,得到样本不确定性较高不确定性样本集;基于由初始样本集、代表性样本集及不确定性样本集构成的合集进行聚类,以估计数据源的聚类中心。可见,本发明通过多阶段分层采样保证了样本具有较高的代表性、不确定性,规避了随机采样样本代表性较差的问题,进而提高了数据源聚类的准确度。 | ||
搜索关键词: | 一种 基于 阶段 分层 采样 层次 方法 系统 | ||
【主权项】:
一种基于多阶段分层采样的层次聚类方法,其特征在于,包括:基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于1的自然数;利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集;对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于1的自然数;基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集;对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310752850.2/,转载请声明来源钻瓜专利网。