[发明专利]基于低差异度数列交叉检验的数据分类优化方法及系统有效
申请号: | 201710243664.4 | 申请日: | 2017-04-14 |
公开(公告)号: | CN107122598B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 刘建亚;郭亮;吕若丹 | 申请(专利权)人: | 刘建亚 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N99/00 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250100 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于低差异度数列交叉检验的数据分类优化方法及系统,其中,本发明的基于低差异度数列交叉检验的数据分类优化方法,利用超越数π(圆周率)的小数点后数字有无限不循环的特征来产生均匀分布的低差异度数列,实现了子集之间的低差异度,从而满足了交叉检验中的子集代表性问题,从而减少了数据分类整个过程的时间,提高了数据分类的效率。 | ||
搜索关键词: | 基于 差异 度数 交叉 检验 数据 分类 优化 方法 系统 | ||
【主权项】:
一种基于低差异度数列交叉检验的数据分类优化方法,其特征在于,包括:步骤1:从医疗信息系统的数据库中提取就诊人员历史医疗数据,所述就诊人员历史医疗数据包括分类标签和生化检验的特征信息;利用提取的就诊人员历史医疗数据构建出样本数据矩阵;步骤2:对样本数据矩阵进行降维处理得到的一维数列作为抽样框架,再结合一个均匀分布的低差异度数列,将提取的医疗数据样本数据矩阵均匀分成k个子集;其中k为大于1的正整数;步骤3:根据一个监督机器学习分类算法,构建一个分类学习模型,用k个子集中的数据进行交叉检验,得到该分类学习模型的平均预测分类准确率;步骤4:判断该分类学习模型的平均预测分类准确率是否大于或等于预设预测分类准确率阈值,若是,则该分类学习模型符合要求;否则,提示研究人员修改该分类学习模型或使用另外一个监督机器学习分类算法构建新的模型,返回步骤3;该方法还包括:将待分类的医疗数据输入至符合要求的分类学习模型中进行分类并输出分类结果;所述步骤2的具体过程,包括:步骤2.1:构建由至少一种降维方法组成的降维方法集合,利用降维方法集合内的降维方法分别对样本数据矩阵进行降维处理,得到相应一维数列;再分别对相应一维数列进行离差标准化,得到相应离差标准化一维数列;离差标准化一维数列中每个数据的取值均介于0‑1之间,且小数点后保留预设位数;步骤2.2:利用圆周率π的正整数倍的小数部分构建一系列低差异数,并且使得该低差异数的小数点后保留数字位数与步骤2.1预设小数点后保留数字位数相等;比较小数点后保留预设位数的离差标准化一维数列和一个低差异度数列中数据的大小,将与所述低差异度数列中相等的数据逐个分配到预设的k个临时容器里,直到把一维数列的数值全部分配到k个临时容器里,每个临时容器为一个子集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘建亚,未经刘建亚许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710243664.4/,转载请声明来源钻瓜专利网。