[发明专利]一种基于聚类与ANN融合应用的文本分类方法在审

申请号：	201910564179.6	申请日：	2019-06-25
公开（公告）号：	CN110390013A	公开（公告）日：	2019-10-29
发明（设计）人：	肖清林	申请（专利权）人：	厦门美域中央信息科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/02
代理公司：	北京劲创知识产权代理事务所(普通合伙) 11589	代理人：	王志敏
地址：	361008 福建省厦门市软件园***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本人工神经网络模型文本分类文本集关键词组融合应用特征样本聚类分类预处理聚类算法快速分类分词抽取网络分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于聚类与ANN融合应用的文本分类方法，包括以下具体步骤：S1、从网络上获取文本A并对其进行预处理，得到处理后的文本B；S2、对处理后的文本B进行分词，得到关键词组C；S3、采用聚类算法对关键词组C进行划分，得到文本集D；S4、获取文本集D的特征样本参数E；S5、从已分类的文本中抽取关键词F，并对其拆分得到多个字符G；S6、建立人工神经网络模型；S7、利用特征样本参数E训练建立的人工神经网络模型；S8、通过人工神经网络模型对文本集D进行分析，对文本A进行分类。本发明提供的文本分类方法能精准的将从网络上获得的所需分类的文本进行快速分类。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于聚类与ANN融合应用的文本分类方法。

背景技术

建党以来，中国共产党的人数和基层党组织数不断增加，中国共产党在党的建设工作过程中积累了海量的数据；另外随着互联网技术的发展，网络上的数据日益增多；当用户需要从海量的数据中检索到符合自身需要的文本数据并对其进行分类是很困难的；如何从浩如烟海的文本数据进行数据挖掘得到用户所需的文本信息，并对其进行分类，具有重要的意义。文本分类通常采用机器学习技术完成。机器学习技术以统计理论为基础，利用算法来让机器具有类似人类的自动学习能力，对已知的训练数据进行统计分析以得到规律，然后运用所得到的规则来对未知数据进行预测分析；但是现有的文本分类方法处理效率慢，且往往无法对获取的大量数据进行有效的分类，以获得符合用户所需的文本信息。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于聚类与ANN融合应用的文本分类方法，本发明提供的文本分类方法先通过对获取的文本进行聚类，再对聚类后的文本精准的分类到已分类的文本中。

(二)技术方案

为解决上述问题，本发明提供了一种基于聚类与ANN融合应用的文本分类方法，包括以下具体步骤：

S1、从网络上获取文本A，并对文本A进行预处理，得到处理后的文本B；

S2、对处理后的文本B进行分词，得到关键词组C；

S3、采用聚类算法对关键词组C进行划分，得到文本集D；

S4、获取文本集D的特征样本参数E；

S5、从已分类的文本中抽取关键词F，并对关键词F拆分，得到多个字符G；

S6、通过回归分析，了解已分类文本的多个字符G是否相关、相关方向与强度，建立人工神经网络模型；

S7、利用特征样本参数E训练建立的人工神经网络模型；