[发明专利]一种基于属性权重聚类的疾病危险因素提取方法在审
申请号: | 201910139122.1 | 申请日: | 2019-02-25 |
公开(公告)号: | CN109978007A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 徐雷;姚澜 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G16H50/00;G16H50/70 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 马鲁晋 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 疾病危险因素 准确率 矩阵 危险因素 用户信息 聚类 集合 标准化处理 标签向量 权重向量 属性增加 特征选择 向量构建 医学领域 用户调查 构建 权重 向量 标准化 问卷 改进 分析 | ||
1.一种基于属性权重聚类的疾病危险因素提取方法,其特征在于,包括以下步骤:
步骤1、根据某种疾病的用户调查问卷,构建用户信息矩阵与标签向量;
步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;
步骤3、对所述标准化用户信息矩阵进行特征选择,获得特征排名向量;
步骤4、根据所述特征排名向量构建属性权重向量;
步骤5、根据所述属性权重向量对标准化用户信息矩阵中的第一个调查问卷问题特征进行聚类,计算聚类准确率,之后逐一增加问题特征,并重新计算聚类准确率,直至聚类完所有问题特征,将其中引起准确率上升的问题特征加入危险因素集合,该集合中的每个元素即为疾病危险因素。
2.根据权利要求1所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤1所述根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:
步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+1),N为参与调查的用户数目,M为调查问卷中问题特征的数量;
所述用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;
所述用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;
步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用户卷对应的用户是否患病,其中0表示用户未患病,1表示用户患病。
3.根据权利要求2所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤2所述对用户信息矩阵进行标准化处理,获得标准化用户信息矩阵,具体为:
采用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布,由此获得N*(M+1)的标准化用户信息矩阵。
4.根据权利要求3所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤3所述对标准化用户信息矩阵进行特征选择,获得特征排名向量,具体为:
对标准化用户信息矩阵进行基于支持向量机的递归特征消除,由此对调查问卷中所有的问题特征进行特征重要性排序,获得1*M的特征排名向量。
5.根据权利要求4所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤4所述根据步骤3获得的特征排名向量构建属性权重向量,具体为:
对特征排名向量中每个特征赋予相应的权重值,每个特征对应的权重值的取值大小与该特征在特征排名向量中的排序成正比,排序越靠前权重值越大,由此获得1*M的属性权重向量weight为:
weight=[weight1,weight2,…weightj′,…weightM] j′=1,2…M
其中,
式中,M为调查问卷中问题特征的数量,rank为某一个问题特征在特征排名向量中的排名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910139122.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:人脸图像的聚类方法和装置
- 下一篇:基于距离变换的最近邻图潜在相似性优化方法