[发明专利]一种基于聚类与ANN融合应用的文本分类方法在审
申请号: | 201910564179.6 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110390013A | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 肖清林 | 申请(专利权)人: | 厦门美域中央信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/02 |
代理公司: | 北京劲创知识产权代理事务所(普通合伙) 11589 | 代理人: | 王志敏 |
地址: | 361008 福建省厦门市软件园*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 人工神经网络模型 文本分类 文本集 关键词组 融合应用 特征样本 聚类 分类 预处理 聚类算法 快速分类 分词 抽取 网络 分析 | ||
一种基于聚类与ANN融合应用的文本分类方法,包括以下具体步骤:S1、从网络上获取文本A并对其进行预处理,得到处理后的文本B;S2、对处理后的文本B进行分词,得到关键词组C;S3、采用聚类算法对关键词组C进行划分,得到文本集D;S4、获取文本集D的特征样本参数E;S5、从已分类的文本中抽取关键词F,并对其拆分得到多个字符G;S6、建立人工神经网络模型;S7、利用特征样本参数E训练建立的人工神经网络模型;S8、通过人工神经网络模型对文本集D进行分析,对文本A进行分类。本发明提供的文本分类方法能精准的将从网络上获得的所需分类的文本进行快速分类。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于聚类与ANN融合应用的文本分类方法。
背景技术
建党以来,中国共产党的人数和基层党组织数不断增加,中国共产党在党的建设工作过程中积累了海量的数据;另外随着互联网技术的发展,网络上的数据日益增多;当用户需要从海量的数据中检索到符合自身需要的文本数据并对其进行分类是很困难的;如何从浩如烟海的文本数据进行数据挖掘得到用户所需的文本信息,并对其进行分类,具有重要的意义。文本分类通常采用机器学习技术完成。机器学习技术以统计理论为基础,利用算法来让机器具有类似人类的自动学习能力,对已知的训练数据进行统计分析以得到规律,然后运用所得到的规则来对未知数据进行预测分析;但是现有的文本分类方法处理效率慢,且往往无法对获取的大量数据进行有效的分类,以获得符合用户所需的文本信息。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于聚类与ANN融合应用的文本分类方法,本发明提供的文本分类方法先通过对获取的文本进行聚类,再对聚类后的文本精准的分类到已分类的文本中。
(二)技术方案
为解决上述问题,本发明提供了一种基于聚类与ANN融合应用的文本分类方法,包括以下具体步骤:
S1、从网络上获取文本A,并对文本A进行预处理,得到处理后的文本B;
S2、对处理后的文本B进行分词,得到关键词组C;
S3、采用聚类算法对关键词组C进行划分,得到文本集D;
S4、获取文本集D的特征样本参数E;
S5、从已分类的文本中抽取关键词F,并对关键词F拆分,得到多个字符G;
S6、通过回归分析,了解已分类文本的多个字符G是否相关、相关方向与强度,建立人工神经网络模型;
S7、利用特征样本参数E训练建立的人工神经网络模型;
S8、通过人工神经网络模型对文本集D进行分析,并判断文本集D中的文本A属于哪类已分类的文本。
优选的,S2中对处理后的文本B分词后去除停用词,得到关键词组C。
优选的,S3中进行聚类算法前,先根据关键词组C中各个关键词之间的相关性构建词共现网络。
优选的,对文本A进行预处理包括去重处理和过滤乱码处理。
优选的,特征样本参数E用于表征多个已分类文本的特征样本参数。
优选的,本发明还还提出了上述基于聚类与ANN融合应用的文本分类系统,包括
获取模块,用于从网络上获取文本A以及从文本集D中获取文本的特征样本参数;
预处理模块,用于对文本A进行预处理,得到处理后的文本B;
分词模块,用于对处理后的文本B进行分词,得到关键词组C以及对关键词F进行拆分,得到多个字符G;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美域中央信息科技有限公司,未经厦门美域中央信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910564179.6/2.html,转载请声明来源钻瓜专利网。