[发明专利]基于低差异度数列交叉检验的数据分类优化方法及系统有效
申请号: | 201710243664.4 | 申请日: | 2017-04-14 |
公开(公告)号: | CN107122598B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 刘建亚;郭亮;吕若丹 | 申请(专利权)人: | 刘建亚 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N99/00 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250100 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 差异 度数 交叉 检验 数据 分类 优化 方法 系统 | ||
1.一种基于低差异度数列交叉检验的数据分类优化方法,其特征在于,包括:
步骤1:从医疗信息系统的数据库中提取就诊人员历史医疗数据,所述就诊人员历史医疗数据包括分类标签和生化检验的特征信息;利用提取的就诊人员历史医疗数据构建出样本数据矩阵;
步骤2:对样本数据矩阵进行降维处理得到的一维数列作为抽样框架,再结合一个均匀分布的低差异度数列,将提取的医疗数据样本数据矩阵均匀分成k个子集;其中k为大于1的正整数;
步骤3:根据一个监督机器学习分类算法,构建一个分类学习模型,用k个子集中的数据进行交叉检验,得到该分类学习模型的平均预测分类准确率;
步骤4:判断该分类学习模型的平均预测分类准确率是否大于或等于预设预测分类准确率阈值,若是,则该分类学习模型符合要求;否则,提示研究人员修改该分类学习模型或使用另外一个监督机器学习分类算法构建新的模型,返回步骤3;
该方法还包括:将待分类的医疗数据输入至符合要求的分类学习模型中进行分类并输出分类结果;
所述步骤2的具体过程,包括:
步骤2.1:构建由至少一种降维方法组成的降维方法集合,利用降维方法集合内的降维方法分别对样本数据矩阵进行降维处理,得到相应一维数列;再分别对相应一维数列进行离差标准化,得到相应离差标准化一维数列;离差标准化一维数列中每个数据的取值均介于0-1之间,且小数点后保留预设位数;
步骤2.2:利用圆周率π的正整数倍的小数部分构建一系列低差异数,并且使得该低差异数的小数点后保留数字位数与步骤2.1预设小数点后保留数字位数相等;比较小数点后保留预设位数的离差标准化一维数列和一个低差异度数列中数据的大小,将与所述低差异度数列中相等的数据逐个分配到预设的k个临时容器里,直到把一维数列的数值全部分配到k个临时容器里,每个临时容器为一个子集。
2.如权利要求1所述的一种基于低差异度数列交叉检验的数据分类优化方法,其特征在于,所述步骤1中,所述样本数据矩阵的每一行代表一个就诊人员样本,样本数据矩阵的列由相应就诊人员样本的分类标签和生化检验的特征信息构成。
3.如权利要求1所述的一种基于低差异度数列交叉检验的数据分类优化方法,其特征在于,所述步骤3具体包括:
步骤3.1:根据一个监督机器学习分类算法,建立一个分类学习模型;
步骤3.2:使用分配数据完成的k个子集的数据对分类学习模型进行循环交叉验证,得到相应k个预测分类准确率并存储至一个临时结果集合内;
步骤3.3:对临时结果集合中的k个预测分类准确率求平均值,将该平均值存入平均预测准确率集合中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘建亚,未经刘建亚许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710243664.4/1.html,转载请声明来源钻瓜专利网。