[发明专利]一种基于混合聚类的文本聚类智能评估方法有效

申请号：	202110731348.8	申请日：	2021-06-29
公开（公告）号：	CN113282756B	公开（公告）日：	2023-01-10
发明（设计）人：	李康顺;雷逸舒;郑明坤;张海信;魏航;唐威;钱冠如	申请（专利权）人：	华南农业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/216;G06N3/00
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	郑秋松
地址：	510642 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混合文本智能评估方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于混合聚类的文本聚类智能评估方法，该方法包括下述步骤：对文本集预处理得到原始文本集内所有特征词；删除文本集中高频和低频的特征词得到预选择后的特征子集；采用TF‑IDF方法计算原始文本集中所有文本对应权重；对特征子集中的每个特征词进行二进制编码，对文本特征预选择后的特征词生成矩阵；设定适应值函数，对特征子集进行特征再选择，选取适应值最优的全局最优个体；对全局最优个体进行解码，得到最终特征子集T；采用TF‑IDF方法表示成T上的向量并进行归一化、标准化，采用混合聚类方法进行文本聚类，选出聚类的最终结果；为聚类结果中的每个簇生成词云。本发明具有聚类效果好，计算量较小的优点。

技术领域

本发明涉及文本聚类技术领域，具体涉及一种基于混合聚类的文本聚类智能评估方法。

背景技术

随着大数据和互联网技术的迅速发展，网络上的文本信息充斥于人们的视野中。然而，网络上存在着数量庞大、语义复杂的文本数据，造成了许多有用的信息不容易被发现，以及一些劣质的文本没有被淘汰。面对海量的信息，如何从这些数据中挖掘出用户自己所需的精准文本信息，如何淘汰劣质文本，成为了当今非常重要的、具有广阔应用前景的研究内容。

目前，现有技术中对文本聚类主要是采用K-means算法直接对原始文本进行聚类，这种方式会造成大量的冗余特征词、且运行速度慢、聚类效果较差、受文档集质量影响大等缺陷。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于混合聚类的文本聚类智能评估方法，该方法利用改进后的粒子群算法对冗余属性进行约简，再通过由改进后的二分K-means和K-means++算法实现的混合聚类方法进行文本聚类，具有聚类效果好，计算量较小的优点。

本发明的第二目的在于提供一种计算机可读存储介质。

本发明的第三目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于混合聚类的文本聚类智能评估方法，包括下述步骤：

获取原始文本集X，并对文本集X进行数据预处理，得到原始文本集内所有特征词D；

对文本特征进行预选择，设定删除比例，删除文本集中高频和低频的特征词，得到预选择后的特征子集D′；

采用TF-IDF方法计算原始文本集X中所有文本对应权重，并将原始文本集X中的所有文本表示成特征子集D′上的向量；

对特征子集D′中的每个特征词进行二进制编码，对文本特征预选择后的特征词生成矩阵；

设定适应值函数，对特征子集D′进行特征再选择，选取适应值最优的全局最优个体；