[发明专利]文本分类方法及服务器有效

专利信息
申请号: 201410171389.6 申请日: 2014-04-25
公开(公告)号: CN105095223B 公开(公告)日: 2018-09-11
发明(设计)人: 焦盼盼 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京亿腾知识产权代理事务所 11309 代理人: 戴燕
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 分类 方法 服务器
【说明书】:

本申请涉及一种文本分类方法,首先对于获取到的待分类文本进行预处理。从而提取出其中的文本特征词,再根据文本特征词,采用通常的快速分类组件对所述待分类文本进行初步分类,以获取候选类别;之后,根据所述文本特征词,进行筛选,筛选出包括与所述文本特征词相似的文本内容对应的文本内容的集合,并在集合中,除去所述候选类别之外的类别对应的文本内容,最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度,确定所述待分类文本的目标类别。通过上述的方案,能够大量采用减少KNN算法对文本进行分类时所需要遍历的文本条目,降低计算复杂度和计算量,提高文本文类的效率。

技术领域

本申请涉及互联网数据处理领域,具体涉及一种文本分类方法及服务器。

背景技术

文本分类是文本挖掘的一个重要内容,是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。通过自动文本分类系统把文档进行归类,可以帮助人们更好地寻找需要的信息和知识。在人们看来,分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长,特别是互联网(Internet)上在线文本信息的激增,文本自动分类已经成为处理和组织大量文档数据的关键技术。现在,文本分类正在各个领域得到广泛的应用。例如,在互联网平台中,服务器可以根据用户通过客户端接收到的一句询问语言,对询问语言对应的文本信息进行分类,确定该文本信息对应的分类之后,依据相应的分类自动对用户的询问语言进行解答,推送相关的信息。

现有技术中对文本进行分类的方法中,K最近邻节点算法(kNN,k-NearestNeighbor),是准确度最高的一种方法,该种方法中,根据训练数据集合与待分类文本数据距离最近(最相似)的K个数据的类别来判断待分类文本所属的类别,其基本过程包括:计算待分类文本与训练集中每个样本的距离;从训练集中筛选出于待分类文本距离最接近的K个样本;计算K个样本归属类别的权重,将权重最高的类别作为待分类样本类别。该种方法具有较高的准确度,但是,随着信息量日趋丰富,人们对于内容搜索的准确率,查全率等方面的要求会越来越高,训练集中包含的样本数目也非常巨大,通过遍历的方式与训练集中的每个样本进行相似度计算,需要消耗服务器大量的性能,并且计算速度较慢。从而导致服务器有效资源被大量占用,计算时间过长导致向用户解答或者推送相关信息需要耗费大量时间。

为此,在不影响分类准确度的情况下,提高服务器对文本进行分类的速度,是本申请需要解决的问题。

发明内容

本申请的目的是提供一种文本分类方法,以实现在不影响分类准确度的情况下,提高服务器对文本进行分类的效率。

一方面,本申请实施例提供了一种文本分类方法,所述方法包括:

对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;

根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别;

根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;

根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;

在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;

根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。

另一方面,本申请实施例提供了一种服务器,所述服务器包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410171389.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top