[发明专利]一种基于层次聚类的自适应选择性文本聚类集成方法在审
申请号: | 201810523039.X | 申请日: | 2018-05-28 |
公开(公告)号: | CN108681609A | 公开(公告)日: | 2018-10-19 |
发明(设计)人: | 徐森;花小朋;徐静;徐秀芳;安晶;李先锋;曹瑞;皋军 | 申请(专利权)人: | 盐城工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 224051 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本聚类 聚类 层次聚类 自适应 层次聚类算法 自适应选择 子集 | ||
本发明公开了一种基于层次聚类的自适应选择性文本聚类集成方法,包括以下步骤:文本聚类成员生成;判断聚类集体的稳定性;根据聚类集体的稳定性自适应选择聚类集体子集Subset;采用层次聚类算法对Subset进行集成。本发明的显著优点是:能够选出精度较高,差异较大的文本聚类成员,可以有效提高文本聚类集成的质量。
技术领域
本发明涉及一种基于层次聚类的自适应选择性文本聚类集成方法,属于数据挖掘技术领域。
背景技术
聚类分析已有五十年的研究历史,它在机器学习、数据挖掘、信息检索、模式识别等领域发挥了极其重要的作用。传统的聚类算法层出不穷,然而没有一种算法能够有效识别出具有不同大小、不同形状、不同密度甚至可能包含噪声的簇。与传统的聚类算法相比,聚类集成技术具备鲁棒性、新颖性、稳定性等优点,目前已成为机器学习的研究热点之一。现有的聚类集成方法都存在很多问题与不足,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种可以有效提升聚类集成效果的基于层次聚类的自适应选择性文本聚类集成方法。
技术方案:基于层次聚类的自适应选择性文本聚类集成方法,包括如下步骤。
1、文本聚类成员生成;2、判断聚类集体的稳定性;3、根据聚类集体的稳定性自适应选择不同的聚类集体子集Subset;4、采用层次聚类算法对Subset进行集成。
有益效果:与现有技术相比,本发明提供的基于层次聚类的自适应选择性文本聚类集成方法能够选出精度较高,差异较大的文本聚类成员,可以有效提高文本聚类集成的质量。
附图说明
图1是本发明方法的流程图。
图2是文本聚类成员生成的流程图。
图3是判断聚类集体的稳定性的流程图。
图4是根据聚类集体的稳定性自适应选择不同的聚类集体子集Subset的流程图。
图5是采用层次聚类算法对Subset进行集成的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明的方法如图1所示。步骤S01为文本聚类成员生成,该步骤将在后面的部分结合图2进行具体介绍。步骤S02判断聚类集体的稳定性,该步骤将在后面的部分结合图3进行具体介绍.步骤S03根据聚类集体的稳定性自适应选择聚类集体子集Subset,该步骤将在后面的部分结合图4进行具体介绍。步骤S04采用层次聚类算法对Subset进行集成,该步骤将在后面的部分结合图5进行具体介绍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城工学院,未经盐城工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810523039.X/2.html,转载请声明来源钻瓜专利网。