[发明专利]一种多元组层次划分的分类方法及装置有效
申请号: | 201710585101.3 | 申请日: | 2017-07-17 |
公开(公告)号: | CN107402994B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 晋彤;李永康 | 申请(专利权)人: | 云润大数据服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510520 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多元 层次 划分 分类 方法 装置 | ||
本发明公开了一种多元组层次划分的分类方法,包括以下步骤:根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类。本发明还公开了一种多元组层次划分的分类装置,提高文章归类精度,缩短响应时间,合理利用硬件资源。
技术领域
本发明涉及文本挖掘及自动分类领域,尤其涉及一种多元组层次划分的分类方法及装置。
背景技术
现有的文章分类模型是基于词频和概率把相同主题的文章按预先训练的分类器划分到不同的类别,但是申请人在对文本挖掘及自动分类领域的研究过程中发现,现有的文章分类模型是根据该模型的全局特征利用泛概率模型获取文章权重,不分领域,产生的误差较大,且不支持分布计算,运算量巨大,从而导致文章归类精度不高,响应时间长而且浪费硬件资源。
发明内容
针对上述问题,本发明的目的在于提供一种多元组层次划分的分类方法及装置,提高文章归类精度,缩短响应时间,合理利用硬件资源。
本发明提供了一种多元组层次划分的分类方法,包括以下步骤:
根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;
根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;
接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类。
优选地,
在所述根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器之后,还包括:
根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。
优选地,
在所述接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类之后,还包括:
根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。
优选地,
在所述接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类,输出所述待分类数据所属分类之后,还包括:
根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引;
其中,所述粒度指所述待分类数据所属分类的范围。
优选地,
所述根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引具体为:
根据划分的粒度,将属于同一粒度且划分为一类的分类数据进行分布式计算的集合存储归档;
根据粒度的不同,生成特征指纹进行分类索引。
优选地,
所述多元组特征库中的各个元组特征根据实体权重及概率权重模型计算进行权重比例调整。
本发明还提供了一种多元组层次划分的分类装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云润大数据服务有限公司,未经云润大数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710585101.3/2.html,转载请声明来源钻瓜专利网。