[发明专利]规则训练方法、装置、设备及存储介质在审
申请号: | 201910705620.8 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110647995A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | 陈娴娴;阮晓雯;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 11321 北京市京大律师事务所 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 延展性 规则验证 数据样本 延展 算法 样本 验证 模型训练样本 数据处理技术 存储介质 模型验证 数据规则 数据系统 贪心算法 训练算法 训练装置 最终数据 数据处理 小批量 抽取 场景 重复 评估 优化 分析 | ||
1.一种规则训练方法,其特征在于,所述规则训练方法包括以下步骤:
确定当前算法场景,并基于所述算法场景,获取当前数据系统中的数据,得到数据样本集;
根据预先设定的小批量抽取算法,重复从所述数据样本集中随机抽取子数据,并基于所述子数据生成样本组,其中,所述样本组包括至少一个模型训练样本组和至少一个模型验证样本组;
根据预置的算法场景与规则训练算法之间的对应关系,选择与所述算法场景对应的规则训练算法,并根据所述规则训练算法和所述模型训练样本组,进行规则模型训练,以供从所述模型训练样本组中抽取样本数据的变化规则并生成对应的规则延展模型;
根据所述模型验证样本组,对各所述规则延展模型进行规则延展性评估验证,得到验证结果,根据所述验证结果对各所述规则延展模型进行排序;
根据排序的结果以及预置的贪心算法,选择满足延展条件的规则延展模型作为最终的规则验证模型,所述规则验证模型用于对所述数据系统中的数据进行分析,所述贪心算法用于对所述规则延展模型的验证推演。
2.如权利要求1所述的规则训练方法,其特征在于,所述确定当前算法场景,并基于所述算法场景,获取当前数据系统中的数据,得到数据样本集包括:
获取当前场景下的各类算法,基于所述算法确定其输入的数据类型;
基于所述数据类型,选择满足所述数据类型的数据来源;
根据所述数据来源,读取与所述数据类型对应的数据集,并通过循环随机抽取的方式从所述数据集中提取出小数据集,以形成所述数据样本集,其中,所述小数据集中至少包含有两种不同属性的数据。
3.如权利要求2所述的规则训练方法,其特征在于,在所述通过循环随机抽取的方式从所述数据集中提取出小数据集,以形成所述数据样本集之后,还包括:
若所述数据样本集为多维度的画像数据集合,则分析从所述数据集中提取出的小数据集中各数据的相关信息,其中,所述相关信息包括数据的属性;
以所述数据的属性作为坐标标签,建立多维度的数据画像,以所述数据画像作为所述数据样本集。
4.如权利要求3所述的规则训练方法,其特征在于,所述根据预先设定的小批量抽取算法,重复从所述数据样本集中随机抽取子数据,并基于所述子数据生成样本组包括:
根据所述数据样本集的大小,设置所述样本组的数量;
根据所述算法场景对输入数据的需求不同,设置所述样本组中的子数据的数量,其中,所述需求包括时间长度;
根据所述样本组的数量、所述样本组中的子数据的数量,以及所述小批量抽取算法从所述数据样本集中抽取子数据,分别形成所述模型训练样本组和所述模型验证样本组,其中,所述小批量抽取算法包括简单随机抽样法、分层随机抽样法和分群随机抽样法。
5.如权利要求4所述的规则训练方法,其特征在于,所述根据预置的算法场景与规则训练算法之间的对应关系,选择与所述算法场景对应的规则训练算法,并根据所述规则训练算法和所述模型训练样本组进行规则模型训练,以供从所述模型训练样本组中抽取样本数据的变化规则并生成对应的规则延展模型包括:
根据所述算法场景选择第一规则训练算法和第二规则训练算法;
根据所述第一规则训练算法和第二规则训练算法,分别以所述模型训练样本组中的子数据作为算法的输入,进行规则模型的训练,得到N个第一规则延展模型和M个第二规则延展模型,其中,N、M的取值小于或等于所述模型训练样本组中的子数据的总数量。
6.如权利要求5所述的规则训练方法,其特征在于,所述根据所述第一规则训练算法和第二规则训练算法,分别以所述模型训练样本组中的子数据作为算法的输入,进行规则模型的训练包括:
采用交叉验证方法将所述模型训练样本组随机划分为K个包,K为大于M的正整数;
从所述K个包中任意选择一个作为测试集,剩下的K-1个作为训练集;
根据所述K-1个训练集分别采用所述第一模型训练算法和第二模型训练算法进行模型训练,并以测试集进行验证,得到第一规则延展模型和第二规则延展模型各M个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910705620.8/1.html,转载请声明来源钻瓜专利网。