[发明专利]一种文本分类方法、装置、介质及设备有效

申请号：	201710393687.3	申请日：	2017-05-27
公开（公告）号：	CN108959329B	公开（公告）日：	2023-05-16
发明（设计）人：	花少勇;范欣;温旭;常卓;李探;王枷淇;王树伟	申请（专利权）人：	腾讯科技(北京)有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
地址：	100080 北京市海淀区海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法装置介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种文本分类方法、装置、介质及设备，该方法包括：针对确定的每个待分类文本，计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离；提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量；根据存储的样本文本与类别的对应关系，将提取的样本文本的标识词向量对应的样本文本所属的类别，作为该待分类文本所属的类别。本发明可以提高确定出的待分类文本所属类别的准确性。

技术领域

本发明涉及文本处理技术领域，尤其涉及一种文本分类方法、装置、介质及设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着互联网技术的高速发展，新闻网页的种类和数量也越来越多，如何对新闻网页进行准确分类，对于网站自身规划以及个性化为偏好各不相同的网民推荐相应新闻网页等均具有重要意义。

目前常用的对新闻网页对应的文本进行分类的方式为：

预先根据样本文本的内容训练多分类模型；对待分类文本进行分词预处理，去除待分类文本中的停顿词、标点符号等词语，得到待分类文本中的特证词；将待分类文本中的特征词输入训练得到的多分类模型，得到待分类文本所属的类别，其中，待分类文本中的字数越少，对待分类文本的分类结果的准确性越差，类别可以包括财经、体育、娱乐等。

发明人发现，目前一些新闻网页对应的文本为短文本，短文本中的字数较少，而利用上述分类方式对短文进行分类时，会由于短文本中的字数较少，导致针对短文本的分类结果准确性差的问题。

发明内容

本发明提供一种文本分类方法、装置、介质及设备，用于提高针对待分类文本的分类结果的准确性。

第一方面，本发明实施例提供一种文本分类方法，包括：

针对确定的每个待分类文本，计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离；

提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量；

根据存储的样本文本与类别的对应关系，将提取的样本文本的标识词向量对应的样本文本所属的类别，作为该待分类文本所属的类别。

可选地，所述方法中，提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量，具体包括：

提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量；或者

提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。

可选地，所述方法中，确定待分类文本，具体包括：

确定所述用户在设定时间段内查看的非样本文本中的非热点文本，并将所述非热点文本作为待分类文本；或者