[发明专利]一种基于多阶段分层采样的层次聚类方法和系统有效
申请号: | 201310752850.2 | 申请日: | 2013-12-31 |
公开(公告)号: | CN103699678A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 赵朋朋;刘袁柳;吴健;鲜学丰;崔志明 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 阶段 分层 采样 层次 方法 系统 | ||
1.一种基于多阶段分层采样的层次聚类方法,其特征在于,包括:
基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;
利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于1的自然数;
利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集;
对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于1的自然数;
基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集;
对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
2.根据权利要求1所述的方法,其特征在于,所述利用所述初始样本集构建基于所述输入属性集的M层查询策略之前还包括:
设置迭代参数x,并为x赋值1。
3.根据权利要求2所述的方法,其特征在于,所述对所述k个簇进行边界点采样,得到不确定性样本集之后,还包括:
判断x的值是否小于预设的迭代次数β;
当判断结果为小于时,则x值加1,将所述初始样本集、所述代表性样本集以及所述不确定性样本集进行合集,将所述合集替代所述初始样本集作为新的初始样本集,并转至执行步骤:利用所述初始样本集,构建基于所述输入属性集的M层查询策略;
当判断结果为不小于时,则转至执行步骤:对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述利用所述初始样本集,构建基于所述输入属性集的M层查询策略具体包括:
利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性一一对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同;
获取所述策略树中每一根节点至叶子节点的路径上包括的各个输入属性及所述输入属性对应的域值,将所述各个输入属性及其对应的域值标记为该叶子节点对应的查询策略。
5.根据权利要求4任意一项所述的方法,其特征在于,还包括:
抑制策略树构建过程中对策略树层次的过度分层。
6.根据权利要求1所述的方法,其特征在于,所述数据源具体为Deep Web数据源。
7.一种基于多阶段分层采样的层次聚类系统,其特征在于,包括:
随机采样模块,用于基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;
分层查询策略构建模块,用于利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于1的自然数;
分层采样模块,用于利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集;
初始聚类模块,用于对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于1的自然数;
边界采样模块,用于基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集;
聚类模块,用于对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310752850.2/1.html,转载请声明来源钻瓜专利网。