[发明专利]一种基于GIS的糖尿病时空分布及患病预测模型在审
申请号: | 202210556712.6 | 申请日: | 2022-05-20 |
公开(公告)号: | CN115588513A | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 董雯;王振懿 | 申请(专利权)人: | 云南师范大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/29;G16H50/50 |
代理公司: | 昆明合盛知识产权代理事务所(普通合伙) 53210 | 代理人: | 康智明 |
地址: | 650050 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 gis 糖尿病 时空 分布 患病 预测 模型 | ||
1.一种基于GIS的糖尿病时空分布及患病预测模型的构建方法,其特征在于,包括以下步骤:
S1:从CHARLS数据集中,筛选出年龄在45岁及以上的调查对象,根据CHARLS提供的问卷代码对照表(CHARLS将问卷的问题及选项进行了编码,其中一个编码表PSU表指示出可以根据调查对象的communityID反推调查对象所在的地级行政区,Codebook表则将问卷的问题和选项进行了编码),反推出调查对象所在的地级行政区及是否患糖尿病,而后按照地级行政区统计糖尿病患病率;
S2:运用Excel,根据CHARLS提供的Codebook表将编码后的数据进行解码,筛选出性别、年龄、居住地等二十二个可能对糖尿病患病有影响的因子,将其转换为二分类或多分类变量;数据导入SPSS后需要在SPSS中对二分类或多分类变量添加标签,方便之后的实验;
S3:将处理后的数据导入ArcGIS软件,运用属性表合并功能,将患病率数据赋予行政区矢量数据,对数据进行空间分析;具体运用空间自相关、热点分析、LISA图分析;
S4:同时将处理后的数据导入SaTScan软件运用空间类聚分析数据时空分布特征,SaTScan软件需要将数据处理成三个文本文件,第一个文件存储研究区ID、经度和纬度,第二个文件存储研究区ID、时间和样本总数,第三个文件存储研究区ID、时间和患病样本数;
S5:在SPSS中,采用定制表功能,针对筛选出的影响糖尿病患病风险因子进行独立性卡方检验(皮尔逊卡方检验),显著性水平α=0.05,若通过卡方检验的因子,则可以作为自变量纳入预测模型。
2.根据权利要求1所述一种基于GIS的糖尿病时空分布及患病预测模型的构建方法,其特征在于,所述Excel对数据处理方式为:根据CHARLS提供的问卷代码对照表将编码后的问卷解码,筛选相关因子后转换成二分类或多分类变量。
3.根据权利要求1所述一种基于GIS的糖尿病时空分布及患病预测模型的构建方法,其特征在于,所述SPSS对数据处理方式为:为变量添加标签,方便之后在SPSS中构建二元Logistic回归模型。
4.根据权利要求1所述一种基于GIS的糖尿病时空分布及患病预测模型的构建方法,其特征在于,所述空间自相关采用局部空间自相关分析(LISA),LISA有“高-高”(high-high,H-H)、“低-低”(low-low,L-L)、“低-高”(low-high,L-H)、“高-低”(high-low,H-L)4种聚集模式,分别表示高发病率地区围绕高值、低发病率地区围绕低值、低发病率地区围绕高值、高发病率地区围绕低值;依据分析值绘制LISA图。
5.根据权利要求1所述一种基于GIS的糖尿病时空分布及患病预测模型的构建方法,其特征在于,所述热点分析通过Getis-Ord Gi*指数反映变量在局部空间区域上的冷热点分布。
6.根据权利要求1所述一种基于GIS的糖尿病时空分布及患病预测模型的构建方法,其特征在于,所述卡方检验具体为:皮尔逊卡方检验,采用的显著性水平α=0.05。
7.根据权利要求1所述一种基于GIS的糖尿病时空分布及患病预测模型的构建方法,其特征在于,所述卡方检验后可纳入预测模型的因子评价标准为:皮尔逊卡方检验的P值小于0.05。
8.根据权利要求1所述一种基于GIS的糖尿病时空分布及患病预测模型的构建方法,其特征在于,所述二元Logistic回归模型是针对二分类变量建立的回归模型,如公式(1)所示
本发明中,调查对象患糖尿病的条件概率为Pi=P(Yi=1|Xi),根据式二元Logistic回归模型假定这个概率表达式如公式(2)所示
9.一种基于GIS的糖尿病时空分布及患病预测模型的预测操作方法,其特征在于:
具体步骤是,在IBM SPSS Statistics 26软件中,找到二元Logistic回归功能,以糖尿病为因变量,以通过单因素检验的因子为自变量;如果有多分类的变量,则将其作为分类协变量,且将第一个类别作为参考类别;因变量和自变量选择完成后,勾选保存预测概率,采用的显著性水平α=0.05,勾选霍斯默-莱梅肖拟合优度检验,回归迭代的方法为向前LR;迭代停止后,输出的最后一个模型即为最优模型,得到的方程中的变量则为最终筛选出来的对糖尿病患病有影响的因子,模型要求霍斯默-莱梅肖检验的P值大于0.05;建模完成后,通过SPSS的ROC曲线功能,以预测概率为检验量,绘制ROC曲线检验模型的预测能力,医学上一般要求ROC曲线的AUC值应大于0.7;最后,选择一个能同时满足较高的特异性和敏感度的分类临界值(即大于此值则认为该样本将来极有可能会患糖尿病),模拟预测研究区的糖尿病患病率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210556712.6/1.html,转载请声明来源钻瓜专利网。