[发明专利]一种分类模型训练的方法、数据分类的方法及装置在审
申请号: | 201611139498.5 | 申请日: | 2016-12-12 |
公开(公告)号: | CN108615044A | 公开(公告)日: | 2018-10-02 |
发明(设计)人: | 尹红军 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类模型 分类目标 损失函数 预测结果 残差 分类模型训练 数据分类 训练参数 样本 错误产生 训练模型 分类 修正 引入 | ||
本发明公开了一种分类模型训练的方法,包括:接收用于训练模型的样本,样本包括训练参数和分类目标;使用训练参数对初始分类模型进行分类训练,得到预测结果;根据初始分类模型所包含的梯度损失函数,确定分类目标与预测结果之间的残差,梯度损失函数包括第一类别与第二类别间距的距离因子,第一类别为预测结果所属类别,第二类别为分类目标所属类别;根据残差,对初始分类模型进行修正,得到最终分类模型。本发明实施例还提供相应的数据分类的方法及装置。本发明技术方案通过在初始分类模型的梯度损失函数中引入类别间距的距离因子,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。
技术领域
本发明涉及数据处理技术领域,具体涉及一种分类模型训练的方法、数据分类的方法及相应装置。
背景技术
集成树模型Xgboost是根据迭代的决策树(Gradient Boosting Decision Tree,GBDT)原理,基于C++实现的分类集成学习模型,其特点是利用中央处理器(CentralProcessing Unit,CPU)的多线程,实现高精度和快运算速度的分类。
Xgboost虽然分类精度很高,但也会发生分类错误的问题,如:将小学生分类成初中生或者将小学生分类成博士生,都属于分类错误,在模型训练阶段会对分类错误的情况进行代价惩罚,从而逐步提高模型分类的精度。
但是,目前对所有分类错误的情况都给予相同的代价惩罚,不利于快速提高模型的分类精度。
发明内容
为了解决现有技术中分类模型训练不精确,训练速度慢的问题,本发明实施例提供一种分类模型训练的方法,通过在初始分类模型的梯度损失函数中引入类别间距的距离因子,从而可以针对不同的分类错误产生不同大小的残差,从而可以快速提高分类模型的精度。本发明实施例还提供了相应的数据分类方法,可以提高数据分类的精确度。本发明实施例还提供了相应的装置。
本发明第一方面提供一种分类模型训练的方法,包括:
接收用于训练模型的样本,所述样本包括训练参数和分类目标;
使用所述训练参数对初始分类模型进行分类训练,得到预测结果;
根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
根据所述残差,对所述初始分类模型进行修正,得到最终分类模型。
本发明第二方面提供一种数据分类的方法,包括:
接收待分类数据;
使用分类模型对所述待分类数据进行分类,得到分类结果;其中,所述分类模型为使用用于训练模型的样本中的训练参数对初始分类模型进行训练得到的,所述样本还包括分类目标,所述初始分类模型包含梯度损失函数,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
输出所述分类结果。
本发明第三方面提供一种分类模型训练的装置,包括:
接收单元,用于接收用于训练模型的样本,所述样本包括训练参数和分类目标;
模型训练单元,用于使用所述接收单元接收的所述训练参数对初始分类模型进行分类训练,得到预测结果;
确定单元,用于根据所述初始分类模型所包含的梯度损失函数,确定所述分类目标与所述模型训练单元训练的所述预测结果之间的残差,所述梯度损失函数包括第一类别与所述第二类别间距的距离因子,所述第一类别为所述预测结果所属类别,所述第二类别为所述分类目标所属类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611139498.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频分类方法及系统
- 下一篇:筛选胶囊内镜拍摄的图像的方法、装置及设备