[发明专利]一种基于LOO-CV验证的交叉核验方法有效
申请号: | 202011550104.1 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112527790B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 顾冰 | 申请(专利权)人: | 四川享宇金信金融科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 重庆憨牛知识产权代理有限公司 50261 | 代理人: | 梁金金 |
地址: | 610041 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 loo cv 验证 交叉 核验 方法 | ||
1.一种基于LOO-CV验证的交叉核验方法,包括剔除模块、精简模块,核验模块和储存模块,其特征在于:所述剔除模块连接有精简模块,且精简模块与核验模块相连接,所述核验模块和储存模块相连接,且储存模块同时与剔除模块相连接;
所述剔除模块的工作步骤为:
步骤11:获取用户提供的待核验数据,并将其进行汇总;
步骤12:区分待核验数据的多寡,当待核验数据为少数类,则不能选择曾经被剔除的数据作为验证集进行核验,可直接传递给精简模块;
步骤13:当剔除模块为第一次运行时,则不存在曾经被剔除的数据,所以不存在验证材料,无法进行核验,可直接传递给精简模块,而当剔除模块非初次运行时,可得到之前的被剔除数据作为验证材料进行核验,从而得到较为精简的待核验数据;
步骤14:将较为精简的待核验数据传递给精简模块;
所述精简模块的工作步骤为:
步骤21:将较为精简的待核验数据分成5组或10组;
步骤22:每次划分时,在不同的分组数据集上进行训练、测试核验,从而得出一个核验结果;当分成了5组时,意思就是在原始数据集上,进行5次核验,每次划分进行一次训练、评估,最后得到5次划分后的核验结果,在这几次核验结果上取平均得到最后的精简数据;
步骤23:将精简数据传递给核验模块;
所述核验模块的工作步骤为:
步骤31:将精简后的数据分成N组,并留待一组作为验证数据;
步骤32:其他N-1个样本用来训练,验证重复N次,每个子样本验证一次,同时能够得到N个模型;
步骤33:用这N个模型最终的验证集的分类准确率的平均数作为此下的性能指标,得到最终的单一数据;
步骤34:将最终的数据储存至储存模块;
所述剔除数据整理的工作步骤为:
步骤41:将被剔除的数据进行收集,并将其进行汇总;
步骤42:将汇总后的被剔除的数据传递给精简模块进行分组核验;
步骤43:将分组核验后的被剔除数据传递给核验模块,得到最终的被剔除数据和模型;
步骤44:当需要用对少数类过采样和大多数类的样本混合在一起的数据集来训练模型,然后用已经排除掉的样本做为验证集,对数据进行验证。
2.根据权利要求1所述的一种基于LOO-CV验证的交叉核验方法,其特征在于:所述剔除模块包括用户提供的待核验数据和被剔除数据。
3.根据权利要求1所述的一种基于LOO-CV验证的交叉核验方法,其特征在于:所述精简模块包括较为精简的待核验数据和分组数据集。
4.根据权利要求1所述的一种基于LOO-CV验证的交叉核验方法,其特征在于:所述核验模块包括精简数据、验证数据和子样本。
5.根据权利要求1所述的一种基于LOO-CV验证的交叉核验方法,其特征在于:所述储存模块包括目标数据和剔除数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川享宇金信金融科技有限公司,未经四川享宇金信金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011550104.1/1.html,转载请声明来源钻瓜专利网。