[发明专利]一种基于LOO-CV验证的交叉核验方法有效
申请号: | 202011550104.1 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112527790B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 顾冰 | 申请(专利权)人: | 四川享宇金信金融科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 重庆憨牛知识产权代理有限公司 50261 | 代理人: | 梁金金 |
地址: | 610041 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 loo cv 验证 交叉 核验 方法 | ||
本发明公开了一种基于LOO‑CV验证的交叉核验方法,包括剔除模块、精简模块,核验模块和储存模块,所述剔除模块连接有精简模块,且精简模块与核验模块相连接,所述核验模块和储存模块相连接,且储存模块同时与剔除模块相连接,所述剔除模块包括用户提供的待核验数据和被剔除数据,所述精简模块包括较为精简的待核验数据和分组数据集,所述核验模块包括精简数据、验证数据和子样本,所述储存模块包括目标数据和剔除数据。该基于LOO‑CV验证的交叉核验方法,采用多种交叉核验方式,使其能够同时适应大小样本的核验,提高其核验灵活性,同时提高核验准确性,且能够对被剔除的数据加以利用,避免被剔除的数据再次出现时对核验效率产生影响。
技术领域
本发明涉及信息核验技术领域,具体为一种基于LOO-CV验证的交叉核验方法。
背景技术
现有技术中,在涉及数据核验时,采用的方法多种多样,有最简单的校验,最安全准确,但是效率低下,还有奇偶校验法、bcc异或校验法、crc循环冗余校验、交叉验证等,而交叉验证方法主要用于建模应用中,交叉验证方法它的基本思想就是将原始数据进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型,能够得到可靠性高的数据,而大部分现有技术采用的交叉核验方法仍存在一些问题,比如:
单独采用一种交叉验证方式,例如单独采用Cross Validation交叉验证时,可能存在一种情况:数据集有5类,抽取出来的也正好是按照类别划分的5类,也就是说第一折全是0类,第二折全是1类等;这样的结果可能就会导致模型训练时,没有学习到测试集中数据的特点,从而导致模型得分很低,而LOO-CV验证法主要针对小样本数据,当使用LOO-CV验证对大样本数据进行核验时,可能导致核验效率十分低下,而K-fold Cross Validation这种交叉核验方法在实作上,要有足够多的训练样本数才能保证最终结果具有说服性,且难以对被剔除的数据加以利用,导致被剔除的数据再次出现时容易对核验效率产生影响,因此,本发明提供一种基于LOO-CV验证的交叉核验方法,以解决上述提出的问题。
发明内容
本发明的目的在于提供一种基于LOO-CV验证的交叉核验方法,以解决上述背景技术中提出的大部分现有技术采用的交叉核验方法单独采用一种交叉验证方式,且难以对被剔除的数据加以利用,导致被剔除的数据再次出现时容易对核验效率产生影响的问题。
为实现上述目的,本发明提供如下技术方案:一种基于LOO-CV验证的交叉核验方法,包括剔除模块、精简模块,核验模块和储存模块,所述剔除模块连接有精简模块,且精简模块与核验模块相连接,所述核验模块和储存模块相连接,且储存模块同时与剔除模块相连接。
优选的,所述剔除模块包括用户提供的待核验数据和被剔除数据。
优选的,所述剔除模块的工作步骤为:
步骤1:获取用户提供的待核验数据,并将其进行汇总;
步骤2:区分待核验数据的多寡,当待核验数据为少数类,则不能选择曾经被剔除的数据作为验证集进行核验,可直接传递给精简模块;
步骤3:当剔除模块为第一次运行时,则不存在曾经被剔除的数据,所以不存在验证材料,无法进行核验,可直接传递给精简模块,而当剔除模块非初次运行时,可得到之前的被剔除数据作为验证材料进行核验,从而得到较为精简的待核验数据;
步骤4:将较为精简的待核验数据传递给精简模块。
优选的,所述精简模块包括较为精简的待核验数据和分组数据集。
优选的,所述精简模块的工作步骤为:
步骤1:将较为精简的待核验数据分成5组或10组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川享宇金信金融科技有限公司,未经四川享宇金信金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011550104.1/2.html,转载请声明来源钻瓜专利网。