[发明专利]分类模型训练方法以及装置在审
申请号: | 202210635079.X | 申请日: | 2022-06-07 |
公开(公告)号: | CN115034300A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 鲍梦瑶;刘佳伟;章鹏;张谦;贾茜 | 申请(专利权)人: | 蚂蚁区块链科技(上海)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 吴肖肖 |
地址: | 200010 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 模型 训练 方法 以及 装置 | ||
1.一种分类模型训练方法,包括:
获取训练样本数据以及目标样本标签,并根据所述训练样本数据以及所述目标样本标签训练获得中间分类器,其中,所述训练样本数据包括目标项目的历史待审核项目数据;
将所述训练样本数据及所述目标样本标签输入所述中间分类器,获得所述训练样本数据对应的样本测试结果;
根据所述样本测试结果,确定所述训练样本数据的训练样本标签;
根据所述训练样本数据以及所述训练样本标签,训练获得目标分类模型,其中,所述目标分类模型用于对所述目标项目的待审核项目数据进行分类,并输出对应的分类结果,所述分类结果用于确定所述待审核项目数据的合规审核结果。
2.根据权利要求1所述的分类模型训练方法,所述获取训练样本数据以及目标样本标签,包括:
获取训练样本数据以及初始样本标签,并根据所述训练样本数据以及所述初始样本标签训练获得初始分类器,其中,所述训练样本数据包括目标项目的历史待审核项目数据;
将所述训练样本数据及所述初始样本标签输入所述初始分类器,获得所述训练样本数据对应的第一样本测试结果;
根据所述第一样本测试结果,确定所述训练样本数据的目标样本标签。
3.根据权利要求2所述的分类模型训练方法,所述将所述训练样本数据及所述目标样本标签输入所述中间分类器,获得所述训练样本数据对应的样本测试结果,包括:
将所述训练样本数据及所述目标样本标签输入第一中间分类器,获得所述训练样本数据对应的第二样本测试结果。
4.根据权利要求1所述的分类模型训练方法,所述样本测试结果中包含所述目标样本标签及预测样本标签,所述预测样本标签通过所述中间分类器对所述训练样本数据进行标签预测生成;
相应的,所述根据所述样本测试结果,确定所述训练样本数据的训练样本标签,包括:
将所述目标样本标签与所述测试样本标签进行比对,并根据比对结果确定所述样本测试结果的准确度是否大于等于预设准确度阈值;
若是,则将所述目标样本标签作为所述训练样本数据的训练样本标签。
5.根据权利要求4所述的分类模型训练方法,在根据比对结果确定所述样本测试结果的准确度小于预设准确度阈值的情况下,所述方法还包括:
对所述样本测试结果进行筛选,获得第一类型的样本测试结果及第二类型的样本测试结果;
根据所述第一类型的样本测试结果中包含的预测样本标签,对所述第一类型的样本测试结果中包含的目标样本标签进行调整,生成调整样本标签;
将所述调整样本标签及所述第二类型的样本测试结果中包含的目标样本标签作为待测试样本标签。
6.根据权利要求5所述的分类模型训练方法,还包括:
根据所述训练样本数据以及所述待测试样本标签训练获得第二中间分类器;
将所述训练样本数据及所述待测试样本标签输入所述第二中间分类器,获得所述训练样本数据对应的第三样本测试结果;
根据所述第三样本测试结果,确定所述训练样本数据的训练样本标签。
7.根据权利要求1所述的分类模型训练方法,所述根据所述训练样本数据以及所述训练样本标签,训练获得目标分类模型,包括:
将所述训练样本数据及所述目标样本标签输入待训练的分类模型的词频统计模块进行处理,生成对应的第一词频统计结果;
将所述第二词频统计结果输入所述待训练的分类模型的分类模块,其中,所述分类模块根据所述第一词频统计结果对所述训练样本数据对应的分类结果进行预测,并根据预测结果及所述目标样本标签,对所述待训练的分类模型的模型参数进行调整,生成目标分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蚂蚁区块链科技(上海)有限公司,未经蚂蚁区块链科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210635079.X/1.html,转载请声明来源钻瓜专利网。