[发明专利]分类方法及装置在审

专利信息
申请号: 201410433033.5 申请日: 2014-08-28
公开(公告)号: CN105373800A 公开(公告)日: 2016-03-02
发明(设计)人: 程惠阁;毛耀宗 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 100085 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分类 方法 装置
【说明书】:

【技术领域】

发明涉及机器学习技术,尤其涉及一种分类方法及装置。

【背景技术】

在机器学习中,可以利用大量已知的训练样本,构建分类模型即分类器,进而利用所构建的分类器对未知的数据进行预测。分类器可以应用在很多场景,例如,由于因网络作弊而产生的垃圾页面越来越多,严重影响了搜索引擎的检索效率和用户体验,因此,反作弊已经成为搜索引擎所面临的最重要的挑战之一,可以将利用已标注的正常数据和作弊数据,构建一个分类器,以对网络数据进行识别。现有技术中,可以利用所构建的一个分类器,对数据进行预测,以获得分类结果。

然而,采用单一的分类器,其所预测的数据的分类结果的准确率不高。

【发明内容】

本发明的多个方面提供一种分类方法及装置,用以提高分类结果的准确率。

本发明的一方面,提供一种分类方法,包括:

将待预测的数据分别输入M个目标分类器,以获得所述M个目标分类器中每个目标分类器所输出的预测结果,M为大于或等于2的整数,所述每个目标分类器之间相互独立;

根据所述每个目标分类器所输出的预测结果和所述每个目标分类器的预测权重,获得所述数据的分类结果。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将待预测的数据分别输入M个目标分类器,以获得所述M个目标分类器中每个目标分类器所输出的预测结果之前,还包括:

利用M个训练样本集中每个训练样本集,分别构建1个目标分类器,所述每个训练样本集中所包含的训练样本不完全相同;或者

利用1个训练样本集,采用M个分类算法中每个分类算法,分别构建1个目标分类器。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个目标分类器所输出的预测结果和所述每个目标分类器的预测权重,获得所述数据的分类结果之前,还包括:

根据所述每个目标分类器的分类准确率,获得所述每个目标分类器的第一权重值;

根据第一指定时间和所述每个目标分类器的构建时间,获得所述每个目标分类器的第二权重值;

根据所述第一权重值和所述第二权重值,获得所述每个目标分类器的预测权重。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将待预测的数据分别输入M个目标分类器,以获得所述M个目标分类器中每个目标分类器所输出的预测结果之前,还包括:

确定待更新的N个候选分类器,N为大于或等于M的整数;

根据所述N个候选分类器中每个候选分类器的分类准确率,获得所述每个候选分类器的第三权重值;

根据第二指定时间和所述每个候选分类器的构建时间,获得所述每个候选分类器的第四权重值;

根据所述第三权重值和/或所述第四权重值,从所述N个候选分类器中删除P个候选分类器,以获得所述M个目标分类器,P为大于或等于1,且小于或等于N-2的整数。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将待预测的数据分别输入M个目标分类器,以获得所述M个目标分类器中每个目标分类器所输出的预测结果之前,还包括:

确定所构建的1个新的候选分类器;

根据所述新的候选分类器的分类准确率,获得所述新的候选分类器的第五权重值;

根据第三指定时间和所述新的候选分类器的构建时间,获得所述每个候选分类器的第六权重值;

根据所述第五权重值和/或所述第六权重值,将待更新的Q个候选分类器与所述新的候选分类器,作为所述M个目标分类器。

本发明的另一方面,提供一种分类装置,包括:

分类单元,用于将待预测的数据分别输入M个目标分类器,以获得所述M个目标分类器中每个目标分类器所输出的预测结果,M为大于或等于2的整数,所述每个目标分类器之间相互独立;

处理单元,用于根据所述每个目标分类器所输出的预测结果和所述每个目标分类器的预测权重,获得所述数据的分类结果。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括构建单元,用于

利用M个训练样本集中每个训练样本集,分别构建1个目标分类器,所述每个训练样本集中所包含的训练样本不完全相同;或者

利用1个训练样本集,采用M个分类算法中每个分类算法,分别构建1个目标分类器。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理单元,还用于

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410433033.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top