[发明专利]一种基于改进K均值聚类的疾病危险因素提取方法在审
申请号: | 201910139120.2 | 申请日: | 2019-02-25 |
公开(公告)号: | CN109961851A | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 徐雷;姚澜 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 马鲁晋 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于改进K均值聚类的疾病危险因素提取方法,该方法包括以下步骤:首先根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;其次对用户信息矩阵进行标准化;然后对标准化用户信息矩阵进行特征选择,采取卡方检验与去除方差最小的方法取交集,得到相关特征,构建问题特征数据矩阵;之后结合改进的Canopy算法与K均值算法,对问题特征数据矩阵中的特征属性进行聚类分析,获得不同的类簇;最后对每个类簇进行相关系数分析,取相关指数最大的特征作为该类簇代表特征,加入危险因素集合。本发明的方法相对于目前医学领域中危险因素提取方法中的频率论方法,能够更高效、准确地提取疾病危险因素。 | ||
搜索关键词: | 矩阵 疾病危险因素 用户信息 数据矩阵 危险因素 问题特征 构建 类簇 标准化 改进 交集 标签向量 聚类分析 均值算法 特征属性 特征选择 系数分析 医学领域 用户调查 方差 去除 算法 集合 问卷 疾病 检验 | ||
【主权项】:
1.一种基于改进K均值聚类的疾病危险因素提取方法,其特征在于,包括以下步骤:步骤1、根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;步骤3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;步骤4、根据步骤3获得的特征集合中的元素,对所述标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵;步骤5、对所述问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C;步骤6、对所述问题特征数据矩阵进行K均值聚类,以所述聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得K个类簇;步骤7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,该危险因素集合中的每一个元素即为疾病危险因素。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910139120.2/,转载请声明来源钻瓜专利网。