[发明专利]一种基于混合模型的疾病危险因素重要性分析方法有效
申请号: | 202110965479.2 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113707317B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 刘勇国;李家辉;朱嘉静;张云;杨尚明;李巧勤;陆鑫 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/70;G06F18/23213 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 模型 疾病 危险 因素 重要性 分析 方法 | ||
本发明公开一种基于混合模型的疾病危险因素重要性分析方法,应用于数据处理领域,针对现有的疾病危险因素分析方法可靠性较低的问题,本发明首先使用聚类算法划分初始危险因素,然后通过神经网络与ReliefF算法结合的混合模型分别分析危险因素类权重和类内危险因素权重,并进行权值融合获得危险因素的全局权重,最后使用逐级分类方法分析危险因素的有效性,并对危险因素之间的联合作用进行分析,提升方法的可靠性。
技术领域
本发明属于数据处理领域,特别涉及一种疾病危险因素数据处理技术。
背景技术
疾病危险因素分析或相关因素研究是医学研究人员关注的重要领域,借助危险因素信息可以为疾病防治策略的制定提供可靠依据。目前,线性回归、逻辑回归、泊松回归和考克斯回归等回归模型是研究人员常用的分析工具,在疾病与危险因素之间的相关性分析中发挥着重要作用。随着医疗数据维度和数量的快速增长,高效可靠的数据挖掘技术越来越受到关注。机器学习,特别是神经网络的逐渐成熟,促进了医疗大数据分析的快速发展,可以有效提高分析效率和可靠性。
中国专利“CN108735296A基于Hidden Markov Model的2型糖尿病危险因素分析方法”提供了一种基于Hidden Markov Model的2型糖尿病危险因素分析方法,首先构建初始模型,根据经验、专业知识和研究目的,产生K个不同观察值的观察序列,并指定模型的初始参数;然后使用训练样本集合对模型进行拟合,最后采用总体样本分组重新训练模型参数,对模型的拟合结果进行评价。
目前有许多基于数据挖掘和机器学习的危险因素分析方法,但这些方法一次性考虑所有危险因素,随着医疗数据维度的增加,计算效率大幅降低。具体来说,现有技术存在的问题是:
(1)现有技术面对高维度大量数据的情形,算法运行占用空间大,计算时间长,效率低,无法适应真实的医疗大数据环境。
(2)目前的危险因素分析方法仅获得疾病相关的危险因素,未能分析危险因素的重要性权重,获取的危险因素信息较少。
此外,生活中一些疾病病理复杂,某些危险因素的单独作用重要性较低,但与其他危险因素具有联合作用,容易被忽视,影响医生的决策,同时,降低了模型或算法的可靠性。
发明内容
为解决上述技术问题,本发明提出一种基于混合模型的疾病危险因素重要性分析方法,通过聚类算法划分初始危险因素,结合神经网络与ReliefF算法计算危险因素的权重,分析疾病危险因素的重要性,此外,对危险因素的联合作用进行分析,增强分析的可靠性。
本发明采用的技术方案为:一种基于混合模型的疾病危险因素重要性分析方法,包括:
S1、通过电子病历获取危险因素数据,构建二维矩阵数据集,并针对缺失数据采用统计插值法补齐;
S2、对经步骤S1处理得到的数据集采用模糊C均值聚类算法进行聚类,得到危险因素的划分类别;
S3、采用神经网络与ReliefF算法结合的混合模型分别分析各类危险因素类权重和类内权重;
S4、通过权重融合,得到各初始危险因素的全局权重;
S5、按照全局权值递减获得危险因素重要度递减的危险因素集合;
S6、采用逐级分类法分析危险因素集合中的危险因素的有效性。
步骤S1所述针对缺失数据采用统计插值法补齐,具体为:对于离散特征使用样本中出现频次最高的特征值将空缺值补齐,对于连续特征使用样本总体的平均值将空缺值补齐;当某危险因素缺失值占比超过总体样本的十分之一时,将该危险因素删除。
步骤S2采用DBI指标确定聚类的最佳类数。
步骤S3具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110965479.2/2.html,转载请声明来源钻瓜专利网。