[发明专利]一种基于聚类与ANN融合应用的文本分类方法在审

专利信息
申请号: 201910564179.6 申请日: 2019-06-25
公开(公告)号: CN110390013A 公开(公告)日: 2019-10-29
发明(设计)人: 肖清林 申请(专利权)人: 厦门美域中央信息科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06N3/02
代理公司: 北京劲创知识产权代理事务所(普通合伙) 11589 代理人: 王志敏
地址: 361008 福建省厦门市软件园*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 人工神经网络模型 文本分类 文本集 关键词组 融合应用 特征样本 聚类 分类 预处理 聚类算法 快速分类 分词 抽取 网络 分析
【权利要求书】:

1.一种基于聚类与ANN融合应用的文本分类方法,其特征在于,包括以下具体步骤:

S1、从网络上获取文本A,并对文本A进行预处理,得到处理后的文本B;

S2、对处理后的文本B进行分词,得到关键词组C;

S3、采用聚类算法对关键词组C进行划分,得到文本集D;

S4、获取文本集D的特征样本参数E;

S5、从已分类的文本中抽取关键词F,并对关键词F拆分,得到多个字符G;

S6、通过回归分析,了解已分类文本的多个字符G是否相关、相关方向与强度,建立人工神经网络模型;

S7、利用特征样本参数E训练建立的人工神经网络模型;

S8、通过人工神经网络模型对文本集D进行分析,并判断文本集D中的文本A属于哪类已分类的文本。

2.根据权利要求1所述的一种基于聚类与ANN融合应用的文本分类方法,其特征在于,S2中对处理后的文本B分词后去除停用词,得到关键词组C。

3.根据权利要求1所述的一种基于聚类与ANN融合应用的文本分类方法,其特征在于,S3中进行聚类算法前,先根据关键词组C中各个关键词之间的相关性构建词共现网络。

4.根据权利要求1所述的一种基于聚类与ANN融合应用的文本分类方法,其特征在于,对文本A进行预处理包括去重处理和过滤乱码处理。

5.根据权利要求1所述的一种基于聚类与ANN融合应用的文本分类方法,其特征在于,特征样本参数E用于表征多个已分类文本的特征样本参数。

6.根据权利要求1-5任一项所述的一种基于聚类与ANN融合应用的文本分类方法,其特征在于,还提出了上述基于聚类与ANN融合应用的文本分类系统,包括

获取模块,用于从网络上获取文本A以及从文本集D中获取文本的特征样本参数;

预处理模块,用于对文本A进行预处理,得到处理后的文本B;

分词模块,用于对处理后的文本B进行分词,得到关键词组C以及对关键词F进行拆分,得到多个字符G;

聚类算法模块,用于对关键词组C进行划分,得到文本集D;

抽取模块,用于从已分类文本中抽取关键词F;

人工神经网络模型构建模块,用于通过回归分析多个字符G建立人工网络模型;

训练模块,用于利用特征样本参数E训练建立的人工神经网络模型;

分类判别模块,用于利用人工网络模型对文本集D进行分析,并判断文本集D中的文本A属于哪类已分类的文本。

7.根据权利要求6所述的一种基于聚类与ANN融合应用的文本分类方法,其特征在于,文本分类系统还包括调整模块,调整模块用于调整人工神经网络模型的反应变数与解释变数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美域中央信息科技有限公司,未经厦门美域中央信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910564179.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top