[发明专利]文章分类方法及装置、存储介质有效
申请号: | 201710792136.4 | 申请日: | 2017-09-05 |
公开(公告)号: | CN110019776B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 王树伟;温旭;花少勇;何鑫;姜国华;殷乐;花贵春;范欣;胡博 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/289;G06F18/2411 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张振伟;张颖玲 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 分类 方法 装置 存储 介质 | ||
1.一种文章分类方法,其特征在于,包括:
将测试集包括的文章的特征词,与目标类别的特征词库包括的特征词进行匹配,得到匹配成功的特征词;
当将所述测试集包括的文章的特征词,与目标类别的特征词库包括的特征词进行匹配,并得到匹配成功的单个特征词时,将匹配成功的单个特征词的得分按照对应的权重相加,得到单个特征词维度的得分;
当将所述测试集包括的文章中的组合特征词,与目标类别的特征词库包括的组合特征词进行匹配,并得到匹配成功的组合特征词时,将匹配成功的组合特征词的得分按照对应的权重相加,得到组合特征词维度的得分;
将所述文章的不同维度的得分相加,得到所述文章属于所述目标类别的得分;
根据所述文章的得分,确定所述文章是否属于所述目标类别的第一判断结果;
将剩余文章的特征输入分类器模型,确定所述剩余文章是否属于所述目标类别的第二判断结果,所述剩余文章为根据所述第一判断结果确定的未属于所述目标类别的文章。
2.如权利要求1所述的方法,其特征在于,所述将测试集包括的文章的特征词,与目标类别的特征词库包括的特征词进行匹配,得到匹配成功的特征词,包括:
将所述测试集包括的文章的特征词,与目标类别的特征词库包括的特征词进行匹配,得到匹配成功的单个特征词;和/或,
将所述测试集包括的文章的特征词按照出现顺序组合,与目标类别的特征词库包括的组合特征词进行匹配,得到匹配成功的组合特征词。
3.如权利要求1所述的方法,其特征在于,所述根据所述文章的得分,确定所述文章是否属于所述目标类别的第一判断结果,包括:
当所述文章的得分超出所述目标类别的得分阈值时,确定所述文章属于所述目标类别,
当所述文章的得分未超出所述目标类别的得分阈值时,确定所述文章未属于所述目标类别。
4.如权利要求1所述的方法,其特征在于,所述将剩余文章的特征输入分类器模型,确定所述文章是否属于所述目标类别的第二判断结果,包括:
根据不同类型的分类器模型的拟合关系,将所述不同类型的分类器模型预测的得分拟合,得到所述剩余文章对应所述目标类别的得分,其中,所预测的得分为基于所述剩余文章的特征预测得到;
当所述文章的得分超出所述目标类别的得分阈值时,确定所述文章属于所述目标类别,当所述文章的得分未超出所述目标类别的得分阈值时,确定所述文章未属于所述目标类别。
5.如权利要求1至4任一项所述的方法,其特征在于,还包括:
以训练集包括的文章的特征词的词向量为样本特征、以及对应的分类结果为样本标记构造训练样本;
使用所构造的训练样本分别迭代训练不同类别的分类器模型,直至满足迭代中止条件;
将所述分类器模型的预测结果向所述训练集包括的文章的分类结果拟合,得到所述分类器模型之间的拟合关系。
6.如权利要求5所述的方法,其特征在于,还包括:
从特征词库中获得特征词,所述特征词满足以下条件:未在所述训练集包括的文章中出现;与所述训练集包括的文章的特征词的词向量的距离小于距离阈值;
将针对所述文章获得的特征词的词向量、连同所述文章的特征词的词向量作为所述文章的样本特征。
7.如权利要求5所述的方法,其特征在于,还包括:
在所述训练集包括的文章的阅读用户的阅读历史中,确定目标分类的阅读比例和/或数量;
向所述文章对应的样本特征中添加所述文章的阅读比例和/或数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710792136.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网络短文本分类的优化系统及方法
- 下一篇:一种信息分类的方法及设备