[发明专利]一种多元组层次划分的分类方法及装置有效

申请号：	201710585101.3	申请日：	2017-07-17
公开（公告）号：	CN107402994B	公开（公告）日：	2021-01-19
发明（设计）人：	晋彤;李永康	申请（专利权）人：	云润大数据服务有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	暂无信息	代理人：	暂无信息
地址：	510520 广东省广州市天***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多元层次划分分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多元组层次划分的分类方法，包括以下步骤：根据文档主题生成模型进行语料训练，生成多元组特征库；其中，所述多元组特征库包含至少一个元组的元组特征；所述元组特征拥有独属于自身的权重比例；根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器；接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，输出所述待分类数据所属分类。本发明还公开了一种多元组层次划分的分类装置，提高文章归类精度，缩短响应时间，合理利用硬件资源。

技术领域

本发明涉及文本挖掘及自动分类领域，尤其涉及一种多元组层次划分的分类方法及装置。

背景技术

现有的文章分类模型是基于词频和概率把相同主题的文章按预先训练的分类器划分到不同的类别，但是申请人在对文本挖掘及自动分类领域的研究过程中发现，现有的文章分类模型是根据该模型的全局特征利用泛概率模型获取文章权重，不分领域，产生的误差较大，且不支持分布计算，运算量巨大，从而导致文章归类精度不高，响应时间长而且浪费硬件资源。

发明内容

针对上述问题，本发明的目的在于提供一种多元组层次划分的分类方法及装置，提高文章归类精度，缩短响应时间，合理利用硬件资源。

本发明提供了一种多元组层次划分的分类方法，包括以下步骤：

根据文档主题生成模型进行语料训练，生成多元组特征库；其中，所述多元组特征库包含至少一个元组的元组特征；所述元组特征拥有独属于自身的权重比例；

根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器；

接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，输出所述待分类数据所属分类。

优选地，

在所述根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器之后，还包括：

根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。

优选地，

在所述接收输入的待分类数据，通过所述待分类数据的特征选择对应的所述分类器，根据实体权重判别及概率权重判别对所述待分类数据进行判别分类，输出所述待分类数据所属分类之后，还包括：

根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。