[发明专利]老年健康数据知识分析方法和系统在审
申请号: | 201910854775.8 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110729052A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 顾东晓;李童童;李兴国;王晓玉;江政;陆文星;钟金宏;赵树平;杨雪洁;苏凯翔;叶紫薇;苗夏雨 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H10/20 |
代理公司: | 11542 北京久诚知识产权代理事务所(特殊普通合伙) | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 老年健康 调查数据 评价指标 知识发现 自变量 数据处理技术 老年人健康 基于机器 集成学习 解释机器 数据知识 特征选择 维度分析 影响因素 解释性 学习性 因变量 构建 分析 引入 融入 学习 | ||
1.一种老年健康数据知识分析方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取老年健康调查数据;
S2、对所述老年健康调查数据进行预处理;
S3、对预处理之后的老年健康调查数据进行集成特征选择,得到关键特征;
S4、基于所述关键特征获取知识发现模型;
S5、基于机器学习评价指标、解释机器学习性评价方法和所述知识发现模型,获取老年健康调查数据知识发现模型;
S6、基于所述老年健康调查数据知识发现模型分析所述老年健康调查数据,得到所述老年健康调查数据中的自变量与因变量的关系。
2.如权利要求1所述的老年健康数据知识分析方法,其特征在于,所述预处理包括缺失值处理。
3.如权利要求2所述的老年健康数据知识分析方法,其特征在于,所述缺失值处理包括:
S201、记一组老年健康调查数据为x1......xk,以统一的形式表示这组老年健康调查数据中的缺失值;
S202、从第一个老年健康调查数据开始,如果x1有缺失值,将在其他变量x2到xk上回归,将x1中的缺失值替换为预测值,所述预测值由来自x1的后验预测分布模拟得出;
S203、对于下一个具有缺失值的老年健康调查数据xi,在所有其他老年健康调查数据x1......xk上回归,xi中的缺失值被来自xi的后验预测分布的模拟值所取代,将老年健康调查数据中的所有缺失值进行替换。
4.如权利要求1所述的老年健康数据知识分析方法,其特征在于,所述集成特征选择包括:
S301、分别使用卡方检验、互信息、基于L2逻辑回归、随机逻辑回归、随机森林和LightGBM对预处理之后的一组老年健康调查数据中的特征a进行特征选择,获取特征a的6种类型的特征得分向量;
S302、对所述特征a的6种类型的特征得分向量进行归一化处理,归一化处理的公式包括:
其中:
X*为归一化处理后的特征得分向量;
Xi为特征a的6种类型的特征得分向量中的其中一种特征得分向量;
S303、基于归一化后的特征a的6种类型的特征得分向量获取特征平均总得分值;
S304、基于步骤S301~S303的方法,获取老年健康调查数据中M个特征的特征平均总得分值,再将M个特征的特征平均总得分值相加,得到总得分值,将总得分值除以6,除以6之后再除以老年健康调查数据中老年人的个数,得到最终平均总得分值,选取老年健康调查数据中特征平均总得分值在最终平均总得分值之上的特征作为关键特征。
5.如权利要求1所述的老年健康数据知识分析方法,其特征在于,所述获取知识发现模型的方法包括:
将关键特征输入梯度提升树分类器中,获取知识发现模型。
6.如权利要求5所述的老年健康数据知识分析方法,其特征在于,所述获取老年健康调查数据知识发现模型的具体方法包括:
S501、基于机器学习评价指标对知识发现模型进行评价,基于评价结果,筛选知识发现模型,得到初始老年健康调查数据知识发现模型;
S502、将排列重要性和基于博弈论Shapley值的Shapley Additive Explanations两种解释机器学习性评价方法加入到初始老年健康调查数据知识发现模型中,得到老年健康调查数据知识发现模型。
7.如权利要求6所述的老年健康数据知识分析方法,其特征在于,在步骤S501中,所述机器学习评价指标包括:准确率、F值和AUC值。
8.一种老年健康数据知识分析系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取老年健康调查数据;
S2、对所述老年健康调查数据进行预处理;
S3、对预处理之后的老年健康调查数据进行集成特征选择,得到关键特征;
S4、基于所述关键特征获取知识发现模型;
S5、基于机器学习评价指标、解释机器学习性评价方法和所述知识发现模型,获取老年健康调查数据知识发现模型;
S6、基于所述老年健康调查数据知识发现模型分析所述老年健康调查数据,得到所述老年健康调查数据中的自变量与因变量的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910854775.8/1.html,转载请声明来源钻瓜专利网。