[发明专利]一种基于改进K均值聚类的疾病危险因素提取方法在审
申请号: | 201910139120.2 | 申请日: | 2019-02-25 |
公开(公告)号: | CN109961851A | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 徐雷;姚澜 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 马鲁晋 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 矩阵 疾病危险因素 用户信息 数据矩阵 危险因素 问题特征 构建 类簇 标准化 改进 交集 标签向量 聚类分析 均值算法 特征属性 特征选择 系数分析 医学领域 用户调查 方差 去除 算法 集合 问卷 疾病 检验 | ||
1.一种基于改进K均值聚类的疾病危险因素提取方法,其特征在于,包括以下步骤:
步骤1、根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;
步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;
步骤3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;
步骤4、根据步骤3获得的特征集合中的元素,对所述标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵;
步骤5、对所述问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C;
步骤6、对所述问题特征数据矩阵进行K均值聚类,以所述聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得K个类簇;
步骤7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,该危险因素集合中的每一个元素即为疾病危险因素。
2.根据权利要求1所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤1所述根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:
步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+1),N为参与调查的用户数目,M为调查问卷问题数目;
所述用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;
所述用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;
步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用户是否患病,其中0表示用户未患病,1表示用户患病。
3.根据权利要求1或2所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤2中所述对用户信息矩阵进行标准化处理,具体为:
采用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布,由此获得N*(M+1)的标准化用户信息矩阵。
4.根据权利要求1或2所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤3所述结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:
步骤3-1、结合标签向量对所述标准化用户信息矩阵进行卡方检验,获得卡方检验对应的调查问卷问题特征集合;
步骤3-2、结合标签向量对所述标准化用户信息矩阵进行去除方差最小的特征选择,获得去除方差最小对应的调查问卷问题特征集合;
步骤3-3、对步骤3-1和步骤3-2中两个调查问卷问题特征集合取交集,获得最终的特征集合。
5.根据权利要求4所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤3所述结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:
步骤3-1’、结合标签向量对所述标准化用户信息矩阵进行卡方检验,保留与标签向量相关的q个问题特征,获得卡方检验对应的调查问卷问题特征集合,其中q=p%*全部问题特征数量;
步骤3-2’、结合标签向量对所述标准化信息矩阵结合标签向量进行去除方差最小的特征选择,保留与标签向量相关的q个问题特征,获得去除方差最小对应的调查问卷问题特征集合;
步骤3-3’、对步骤3-1’和步骤3-2’中两个调查问卷问题特征集合取交集,获得最终的调查问卷问题特征集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910139120.2/1.html,转载请声明来源钻瓜专利网。