[发明专利]模型训练及规则挖掘方法和系统有效
申请号: | 201810672460.7 | 申请日: | 2018-06-26 |
公开(公告)号: | CN109034201B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 陈永环;邹泊滔;李思平;麥永賢;孙清清;王鑫云;钱宣统;赵云;顾曦 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 规则 挖掘 方法 系统 | ||
本说明书实施例提供一种模型训练及规则挖掘方法和系统,通过各个样本特征的优化参数计算由样本特征训练出的监督学习模型的优化参数,并根据监督学习模型的优化参数设置目标函数,从而能够自动从监督学习模型中筛选出满足条件的目标监督学习模型,无需人工干预。
技术领域
本说明书涉及数据处理技术领域,尤其涉及模型训练及规则挖掘方法和系统。
背景技术
目前,医疗诊断、自动驾驶、法律判决、反洗钱、反欺诈、反作弊等领域,需要依赖机器学习模型生成规则来进行辅助的诊断、驾驶、判决、以及识别风险等。
发明内容
基于此,本说明书提供了模型训练及规则挖掘方法和系统。
根据本说明书实施例的第一方面,提供一种模型训练方法,所述方法包括:分别计算各个样本特征的优化参数,所述样本特征的优化参数用于表征所述样本特征对样本标签的贡献度;根据所述样本特征对监督学习模型进行训练,并根据所述样本特征的优化参数计算所述监督学习模型的优化参数;根据预设的目标函数从训练出的监督学习模型中选择目标监督学习模型,所述目标函数根据所述监督学习模型的优化参数设定。
可选地,分别计算各个样本特征的优化参数的步骤包括:分别计算所述样本特征在各条样本数据中的优化参数;将所述样本特征在各条样本数据中的优化参数的绝对值进行求和,得到所述样本特征的优化参数。
可选地,根据所述样本特征对监督学习模型进行训练的步骤包括:对所述样本特征进行排列组合,得到若干个样本特征集;分别根据各个样本特征集对监督学习模型进行训练,对应得到若干个监督学习模型。
可选地,根据所述样本标签的优化参数计算所述监督学习模型的优化参数的步骤包括:将所述监督学习模型中各个样本特征的优化参数进行求和,得到所述监督学习模型的优化参数。
可选地,所述优化参数包括可解释分值参数和/或可信度参数。
可选地,所述目标函数包括可解释分值参数目标函数和/或可信度参数目标函数;其中,所述可解释分值参数目标函数为所述监督学习模型的可解释分值参数高于预设的可解释分值阈值,所述可信度参数目标函数为所述监督学习模型的可信度参数高于预设的可信度阈值。
可选地,所述目标函数还包括GINI不纯度参数目标函数,所述GINI不纯度参数目标函数为所述监督学习模型的GINI不纯度参数高于预设的GINI不纯度参数阈值。
可选地,所述GINI不纯度参数目标函数为:式中,GINI为所述监督学习模型的GINI不纯度参数,p(i)为实际具有第i类样本标签的样本数据中,通过所述目标监督学习模型判别为具有第i类样本标签的样本数据所占的比例;n+1为样本标签的类别总数。
可选地,所述方法还包括:对样本数据进行分词;根据分词结果构建DTM矩阵;根据所述DTM矩阵获取样本特征。
可选地,在分别计算各个样本特征在每条样本数据中的优化参数之前,所述方法还包括:对样本数据执行以下至少任一操作,得到所述样本特征:数据清洗;和/或归一化处理;和/或特征工程。
可选地,所述监督学习模型为决策树模型。
根据本说明书实施例的第二方面,提供一种规则挖掘方法,所述方法包括:根据决策树模型上从根节点到叶子节点之间的路径生成规则;其中,所述决策树模型根据任一实施例所述的模型训练方法进行训练,且所述模型训练方法中的监督学习模型为决策树模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810672460.7/2.html,转载请声明来源钻瓜专利网。