[发明专利]基于低差异度数列交叉检验的数据分类优化方法及系统有效
申请号: | 201710243664.4 | 申请日: | 2017-04-14 |
公开(公告)号: | CN107122598B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 刘建亚;郭亮;吕若丹 | 申请(专利权)人: | 刘建亚 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N99/00 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250100 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 差异 度数 交叉 检验 数据 分类 优化 方法 系统 | ||
技术领域
本发明属于数据挖掘和机器学习分类领域,尤其涉及一种基于低差异度数列交叉检验的数据分类优化方法及系统。
背景技术
目前,监督机器学习(supervised machine learning)技术在人工智能辅助医疗数据分类的已经开始得到应用。其思想为用一个监督机器学习分类算法统计模型(下简称分类学习模型),通过统计大量已经被人类分类的医疗历史数据,来学习人类的分类能力,从而达到辅助人类来准确对医疗数据进行分类的目的。通常情况下,其实施流程为:
(1)首先收集一个数据集,内含大量就诊人员的临床诊断历史数据,其中包括这些就诊人员的各种医学和生化检验的特征信息(比如血压,心率等特征)和就诊人员的分类标签(比如把就诊人员分成健康人员或病患,轻度患病或重度患病,就诊人员的细胞存活或死亡等类别);(2)然后采用一种监督机器学习方法,设立一个分类学习模型(比如,采用逻辑回归算法,建立一个线性回归模型),对这个数据集做交叉验证(Cross validation,亦称循环估计)。交叉验证包括训练和测试两个部分。通常情况下,该数据集的样本被随机分入到k个子集里,利用k-1个子集来训练模型,映射训练集中就诊人员的特征和和医生的诊断分类之间的关系。余下一个子集作来对之前训练好的模型进行测试,衡量之前在训练集中得到的特征和诊断分类之间的映射关系是否也存在于测试集的数据里,由此得到一个预测分类准确率。(3)如果准确率达到或超过预先设定的合格分类水平,则该统计模型通过交叉检验,可以直接被部署应用;如果准确度不高,则需要研究人员修改统计模型或使用另外一种监督机器学习方法,重做交叉测试,直到通过为止。
理想的交叉检验方法必须遵守子集代表性(representative subsets)条件。也就是说每个子集必须从全部样本历史数据(下简称全部样本数据)中均匀取样。均匀取样的目的是希望减少每个子集与全部数据之间的偏差,使得特征和诊断分类之间的映射关系在每个子集里都能很好得存在。这k个子集数据应为全部样本数据的有代表性的缩小版,尽最大可能地保留全部样本数据的特征和诊断分类之间的映射信息。其中,最常用的交叉检验方法是随机10-折交叉检验(random k-fold cross validation,k=10)。
该方法先对全部样本数据中得每个样本的序号进行编号。然后利用一个计算机生产的伪随机数列(pseudo random number sequence)。该数列所有数字为不重复的整数,最小为1,最大为全部样本数据的样本量。这些数字在该数列里排列的次序为随机的。每个数字对应全部样本数据一个样本的序号。先将该伪随机数列分成10个等份,然后把每个等份里的伪随机数所对应的全部样本数据样本抽出放入到一个子集中,依次把全部样本数据样本分配到10个子集里。
每次实验轮流用取一份子集做测试集,余下的9份作为训练集。每次先在训练集上训练模型,得到相应的假设统计模型,然后用测试集测试假设统计模型,计算该模型的预测分类准确率。随机k折交叉检验需要循环进行k次实验,即每一子集都会作为一次测试集,因此会得到k个预测分类准确率。最后取这k个预测分类准确率的平均值(以下称为k折平均预测分类准确率)为该模型的评价指标,用于跟预先设定的合格分类水平进行比较。
这种交叉检验方法依赖一个计算机生成的伪随机数列,而伪随机数列的产生则依赖于随机种子。使用一个伪随机数列划分子集会对于随机种子非常敏感。如果使用不同的随机种子,每次做交叉检验,都会划分都可能把全部样本数据样本划分到不同的子集里。如果同一个模型重复做若干次交叉检验,每次交叉验证的时候会得到不同的k折平均预测分类准确率。因此,为了抵消随机数列带来的子集不确定性,研究人员往往需要用不同的随机种子重复几十次该交叉检验过程,然后对这几十个k折平均预测分类准确率求平均值,作为该模型的预测分类准确率。但是重复几十次不光计算成本较大,而且也不能很好地解决子集缺乏代表性问题。也就是说,即使重复几十次交叉检验,每个子集的预测分类准确率依然差别很大(即子集之间的预测分类准确率标准方差较大,最好和最低预测分类准确率的间距较大)。
综上所述,针对医疗信息系统的数据库内的样本数据做交叉检验的过程中,往往采用现有的随机k折交叉检验方法来对当前训练完成的分类学习模型进行交叉检验,以评估其预测分类准确率,比如:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘建亚,未经刘建亚许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710243664.4/2.html,转载请声明来源钻瓜专利网。