[发明专利]一种基于层次聚类的自适应选择性文本聚类集成方法在审
申请号: | 201810523039.X | 申请日: | 2018-05-28 |
公开(公告)号: | CN108681609A | 公开(公告)日: | 2018-10-19 |
发明(设计)人: | 徐森;花小朋;徐静;徐秀芳;安晶;李先锋;曹瑞;皋军 | 申请(专利权)人: | 盐城工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 224051 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本聚类 聚类 层次聚类 自适应 层次聚类算法 自适应选择 子集 | ||
1.一种基于层次聚类的自适应选择性文本聚类集成方法,其特征在于,包括以下步骤:
S01:文本聚类成员生成;
S02:判断聚类集体的稳定性;
S03:根据聚类集体的稳定性自适应选择聚类集体子集Subset;
S04:采用层次聚类算法对Subset进行集成。
2.根据权利要求1所述的基于层次聚类的自适应选择性文本聚类集成方法,其特征在于,所述文本聚类成员生成的步骤是:
S11:输入聚类成员个数
S12:将控制参数
S13:判断控制参数
S14:随机生成
S15:得到聚类结果
S16:将控制参数
S17:构建聚类成员集合
3.根据权利要求1所述的基于层次聚类的自适应选择性文本聚类集成方法,其特征在于,所述判断聚类集体的稳定性的步骤是:
S21:计算聚类成员之间的规范化互信息NMI(Normalized Mutual Information);
S22:计算聚类集体的整体平均规范化互信息TANMI(Total Average NormalizedMutual Information);
S23:判断TANMI是否大于或等于0.5,是则转到步骤S24,否则转到步骤S25;
S24:聚类集体稳定性为S;
S25:聚类集体稳定性为NS。
4.根据权利要求1所述的基于层次聚类的自适应选择性文本聚类集成方法,其特征在于所述根据聚类集体的稳定性自适应选择相应的聚类集体子集Subset的步骤是:
S31:使用层次聚类算法对所有聚类成员进行集成,得到初始一致划分
S32:计算所有聚类成员与
S33:判断聚类集体稳定性是否为S,是则转到步骤S34,否则转到步骤S35;
S34:选择与
S35:选择与
5.根据权利要求1所述的基于层次聚类的自适应选择性聚类集成方法,其特征在于所述采用层次聚类算法对Subset进行集成的步骤是:
S41:根据Subset计算文本之间的相似度矩阵;
S42:使用层次聚类算法对文本集聚类;
S43:得到最终的聚类集成结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城工学院,未经盐城工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810523039.X/1.html,转载请声明来源钻瓜专利网。