[发明专利]一种文本分类方法、装置、设备及计算机可读存储介质有效

专利信息
申请号: 201910594623.9 申请日: 2019-07-03
公开(公告)号: CN110287328B 公开(公告)日: 2021-03-16
发明(设计)人: 谢宝钢;谢胜利 申请(专利权)人: 广东工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/284;G06K9/62
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 侯珊
地址: 510060 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 分类 方法 装置 设备 计算机 可读 存储 介质
【说明书】:

发明公开了一种文本分类方法,包括:接收待分类文本,根据训练得到的特征项集合,将待分类文本映射为目标特征向量;特征项集合为结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对训练文本数据集进行训练得到的;计算目标特征向量与训练文本数据集中各文本的特征向量的欧氏距离;根据各欧式距离选取待分类文本的各邻居文本;基于各邻居文本利用K最近邻算法计算待分类文本对于文本类别集合中各类文本的权重;根据各权重确定待分类文本的文本类别。本发明较大地提高了对文本分类的准确率,缩短了分类时长,较大地降低了成本。本发明还公开了一种文本分类装置、设备及存储介质,具有相应技术效果。

技术领域

本发明涉及自然语言处理技术领域,特别是涉及一种文本分类方法、装置、设备及计算机可读存储介质。

背景技术

随着网络技术的快速发展,包括微博、微信、QQ等社交软件,文本信息成为了一个重要的存在形式,人们对快速、准确且全面的找到相关信息的要求越来越高。文本分类是自然语言处理中的基本任务之一,一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程。

现有的文本分类方式主要有通过整合统计学习方法和深度学习方法的基于多维度特征选择的文本分类方法、基于快速文本分类模型和卷积神经网络模型的文本分类方法。首先,多维度特征选择的文本分类方法通过多个维度考虑特征词的选择,再通过神经网络分类器进行分类,这在一定程度上能够提升文本分类的准确性和稳定性。但该方法仍存在不足之处,该方法在前期处理的过程复杂,耗费时间长。其次,基于快速文本分类模型和卷积神经网络模型在文本分类的过程中,需要通过人工的方法去分词,这就需要花费很多时间在观察数据的训练上,不同的人对不同的特征词存在不同的理解,人工分词因人而异,易受主观因素的影响,最终分类的准确率也不高,计算成本过高,耗时过长。

综上所述,如何有效地解决现有的文本分类方法耗费时间长、人工成本高、分类准确率低等问题,是目前本领域技术人员急需解决的问题。

发明内容

本发明的目的是提供一种文本分类方法,该方法较大地提高了对文本分类的准确率,较大地缩短了分类时长,较大地降低了成本;本发明的另一目的是提供一种文本分类装置、设备及计算机可读存储介质。

为解决上述技术问题,本发明提供如下技术方案:

一种文本分类方法,包括:

接收待分类文本,并根据通过对训练文本数据集中各文本预先训练得到的特征项集合,将所述待分类文本映射为目标维度的目标特征向量;其中,所述特征项集合为结合分词算法、利用词频和逆向文件频率的乘积计算特征权重的计算算法及信息增益算法对所述训练文本数据集进行训练得到的;

计算所述目标特征向量与所述训练文本数据集中各文本的特征向量的欧氏距离,并对各所述欧式距离进行大小排序;

选取排序中欧式距离小的一端的前第一预设数量个所述欧式距离对应的文本,作为所述待分类文本的各邻居文本;

基于各所述邻居文本利用K最近邻算法计算所述待分类文本对于文本类别集合中各类文本的权重;其中,所述文本类别集合为预先依据所述特征项集合对所述训练文本数据集中各所述文本进行分类得到的;

将权重最大值对应的文本类别确定为所述待分类文本的文本类别。

在本发明的一种具体实施方式中,对所述训练文本数据集进行训练得到所述特征项集合和所述文本类别集合的训练过程包括:

利用jieba分词算法分别对所述训练文本数据集中各文本进行分词,得到各所述文本的分词集合;

计算各所述分词集合中各词的词频和逆向文件频率,并计算各所述分词集合中各词分别对应的词频和逆向文件频率的乘积,得到各所述分词集合中各词分别对应的特征权重;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910594623.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top