[发明专利]一种机器学习系统学习性能的评估方法有效
申请号: | 201610471449.5 | 申请日: | 2016-06-24 |
公开(公告)号: | CN106169096B | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 王瑞波 | 申请(专利权)人: | 山西大学 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 太原科卫专利事务所(普通合伙) 14100 | 代理人: | 朱源 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种机器学习系统学习性能的评估方法,根据用户给定的评估次数,将数据集切分成多组不同的训练集和验证集;针对多组训练集和验证集中的每一组,使用训练集(验证集)对机器学习系统进行训练,得到机器学习模型;再使用验证集(训练集)对机器学习模型进行测试,得到机器学习系统性能的单次估计;当多组训练集和验证集全部用完后,将机器学习系统性能的所有估计平均起来作为系统性能的最终估计;同时等待用户是否采纳当前的估计;若用户需要增大评估次数,则在原有基础上,逐步增加余下的训练集和测试集,并执行机器学习系统的训练和测试,直至计算出新的性能估计;若用户采纳当前的估计,则返回当前的机器学习系统性能的估计。 | ||
搜索关键词: | 一种 机器 学习 系统 性能 评估 方法 | ||
【主权项】:
1.一种机器学习系统学习性能的评估方法,其特征在于,包括如下步骤:A.接受用户需要评估的机器学习系统、含有n条记录的数据集Dn以及评估次数参数m;所述数据集Dn={zi:zi=(xi,yi),i=1,...,n},其中,zi是数据集Dn中的第i条记录;xi和yi分别为记录zi的预测变量和响应变量;B.设置指标集组B=({1,2,...,n})和切分规则组P=();指标集组是指标集的子集的集合;所述指标集是每个记录数据集Dn中zi的下标所组成的集合,记为I={1,2,...,n};指标集组中的每一个元素都是指标集I的一个子集,指标集组所有元素的并集=I且指标集组中任意两个不相同的元素的交集为空集,同时指标集组中每个元素所包含的指标个数相同,而指标集组B=({1,2,...,n})则是将整个指标集作为一个元素的集合;所述切分规则组是指包含零个或多个切分规则的集合;所述切分规则指的是由符号’+’和’‑’组成的一个序列,序列中’+’和’‑’出现的次数相同,且至少出现一次;P=()表示不包含任何切分规则,即为空切分规则组;C.设置索引变量startIndex=1以及endIndex=m;D.设置变量α从startIndex开始加一递增,直至大于endIndex结束;在每次递增时,分别执行下述的a)‑e)步:a)如果α为2的幂数,执行下述的i‑iii步:ⅰ.对指标集组B执行扩展操作,即指标集组B中的每个元素按照从前向后的顺序都分裂成一对大小相等的子集;新形成的多个子集共同构成新的指标集组B2α并将B2α赋给B,即:B←B2α;扩展后得到的每对子集的并集等于该对子集所对应的原指标集组B中的元素,且每对子集的交集为空集;ⅱ.如果切分规则组为空,则不进行整体逐元素扩展;如果切分规则组不为空,则对切分规则组中的每一条规则依次进行2次整体逐元素扩展,即将每一条切分规则中的每个符号由左至右分别重复一遍,重复后得到的符号分别列于与其对应的被重复符号的右侧进而形成一个新的切分规则,所有新形成的切分规则共同构成一个新的切分规则组Pα,并将Pα赋给P,即:P←Pα;ⅲ.将切分规则(+,‑)进行α次整体扩展,形成新的规则R;并将R追加到切分规则组P的末尾;所述切分规则的α次整体扩展是指将切分规则(+,‑)整体重复α次后形成一条新的切分规则;b)如果α不为2的幂数,则对切分规则组P中的第条规则和第条规则进行加法运算,形成新的切分规则R;并将R追加到切分规则组P的末尾;切分规则的加法运算是指将两条长度相同的切分规则中相同位置的符号按照“相同符号得+,不同符号得‑”的运算得到一个新规则;c)根据上述步骤a)或b)所得到的指标集组B以及切分规则组P中的最后一条切分规则R,使用训练指标集的组合规则和验证指标集的组合规则生成相应的训练指标集I(T)和验证指标集I(V);切分规则R所包含的符号个数与指标集组B的元素个数相同;所述训练指标集的组合规则为表示指标集组B中的第j个元素,该公式表示将指标集组中与切分规则R中所有’+’符号的序号相对应的所有元素求并集;所述验证指标集I(V)的组合规则为该公式表示将指标集组B中与切分规则R中所有’‑’符号的序号相对应的所有元素求并集;d)根据训练指标集I(T)和验证指标集I(V),抽取出相应的记录形成训练集T={zi:i∈I(T),zi∈Dn}和验证集V={zi:i∈I(V),zi∈Dn};I(T)∪I(V)=I且I(T)∩I(V)=Φ;e)使用训练集T来训练机器学习系统,并使用验证集V进行测试,计算出性能估计然后使用验证集V对机器学习系统进行训练,并使用训练集T进行测试,计算出另一个性能估计E.计算所有估计值的平均值并将提供给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610471449.5/,转载请声明来源钻瓜专利网。
- 上一篇:主动学习大数据标注方法和系统
- 下一篇:远程先进的修复指导