[发明专利]一种基于逻辑回归对临床大样本因素危险性评估系统有效

专利信息
申请号: 202010320034.4 申请日: 2020-04-21
公开(公告)号: CN111430038B 公开(公告)日: 2023-03-07
发明(设计)人: 成晓亮;张磊 申请(专利权)人: 江苏品生医疗科技集团有限公司;南京品生医疗科技有限公司
主分类号: G16H50/70 分类号: G16H50/70;G16H50/00;G16H15/00
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 210000 江苏省南京市江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 逻辑 回归 临床 样本 因素 危险性 评估 系统
【权利要求书】:

1.一种基于逻辑回归对临床大样本因素危险性评估系统,其特征在于:包含数据质控模块、逻辑回归分析模块和结果解读模块;

其中,数据质控模块,用于提供原始输入数据检查,并生成Check.info.txt,根据Check.info.txt展示的结果修正数据;

逻辑回归分析模块,用于提供数据归一化处理和逻辑回归分析,并返回结果文件Result.xlsx;

结果解读模块,用于读取数据质控模块生成的Check.info.txt文件和逻辑回归分析模块生成的Result.xlsx文件,比对这两个文件关于所有变量的描述性数据,将比对结果追加在Result.xlsx文件中;

所述数据质控模块提供原始输入数据检查并输出数据检查结果文件的过程包括以下步骤:

步骤1,输入临床数据文件,其中,临床数据文件为txt、xlsx、csv、html的格式文件,或者压缩形式为gz或tar的格式文件压缩包;

步骤2,检查临床数据文件有无样本编号重复,若有,则将重复样本编号输出到文件Check.info.txt,输出内容格式为“重复样本编号:样本编号1|样本编号2|…|样本编号n”,样本编号1表示第一个重复样本编号,样本编号2表示第二个重复样本编号,样本编号n表示第n个重复样本编号,不同样本编号之间用符号|分隔,若没有,则在文件Check.info.txt输出内容为“重复样本编号:无”;

步骤3,检查临床数据文件中因素变量名称有无重复,若有,则输出重复变量名称追加到文件Check.info.txt,输出内容格式为“重复变量名称:变量名称1|变量名称2|…|变量名称m”,变量名称1表示第一个重复变量的名称,变量名称2表示第二个重复变量的名称,变量名称m表示第m个重复变量的名称,不同变量名称之间用符号|分隔,若没有,在文件Check.info.txt的输出内容记为“重复变量名称:无”;

步骤4,检查各因素变量的缺失值,将因素变量名称和缺失值个数输出到文件Check.info.txt,输出内容格式为“变量名称1:*个缺失值;变量名称2:*个缺失值;…;变量名称m:*个缺失值”,变量名称1:*个缺失值表示第一个变量有*个缺失值,变量名称2:*个缺失值表示第二个变量有*个缺失值,变量名称m:*个缺失值表示第m个变量有*个缺失值;*表示缺失值个数,取值范围是大于等于0的正整数;

步骤5,检查各因素变量的数据类型,输出结果类型到文件Check.info.txt,输出内容格式为“连续型数据:变量名称1|变量名称2|…|变量名称m;离散型数据:变量名称1|变量名称2|…|变量名称m;分类型数据:变量名称1|变量名称2|…|变量名称m”,变量名称1表示第一个变量,变量名称2表示第二个变量,变量名称m表示第m个变量;

步骤6,检查各因素变量的数据范围类型,若变量是连续型数据,计算最大值、最小值均值、50%位置的值、25%位置的值和75%位置的值;如果变量是离散型数据或者分类型数据,统计所有元素值类型和个数;如果变量的数据同时有数字和其它非数字的符号,统计所有元素值类型和个数;将所有结果均追加到文件Check.info.txt,运行终止;

步骤7,用户根据文件Check.info.txt展示的结果,进一步修正原始数据;修正完毕后,再继续输入修正后的数据,运行模块再产生Check.info.txt,用户再检查Check.info.txt展示的信息是否符合预期的数据信息;

所述逻辑回归分析模块用于提供数据归一化处理和逻辑回归分析,并返回结果文件Result.xlsx的过程具体包含如下步骤:

步骤a,输入数据质控模块检验后的数据,输入文件Check.info.txt;文件Check.info.txt提供以下数据:各因素变量类型;连续型数据的数值范围、最大值、最小值、均值、50%位置的值、25%位置的值和75%位置的值;分类型变量和离散型变量的元素值类别和个数;

步骤b,数据标准化,标准化方法包含对数转换、平方根转换、取倒数转换、平方转换四种;逻辑回归分析模块输出1个变量配置文件tran.xlsx,变量配置文件tran.xlsx包括5个sheet表,前4个sheet表各对应一种标准化方法;用户在每个sheet表中输入需要标准化的因素变量名称,没有纳入表格的变量默认不进行标准化,若4个sheet表均未填写则表示所有因素变量都不进行标准化;第5个sheet表填写将要纳入分析的变量,若不填写为空,则表示所有变量均纳入逻辑回归分析中;

步骤c,数据标准化处理后,进入逻辑回归分析过程;根据tran.xlsx第5个sheet表提供的变量名称纳入到逻辑回归分析中,输出结果文件Result.xlsx包括OR和显著性P值;若变量OR等于1,则因素变量和疾病无关联;若OR大于1,则因素变量升高会促进疾病的发生,该因素是个危险因素;若OR小于1,则因素变量升高会减少疾病的发生,该因素变量是保护因素;其中,OR具体表达式如下:

其中,p表示疾病事件发生的概率,1-p表示疾病事件不发生的概率,e表示自然对数;所述结果解读模块的功能原理如下;

读取数据质控模块生成的Check.info.txt文件和逻辑回归分析模块生成的Result.xlsx文件,Check.info.txt文件提供所有变量的描述统计数据,Result.xlsx文件提供所有变量的OR值和显著性P值;比对这两个文件关于所有变量的描述性数据,比对结果将追加在Result.xlsx文件中,比对内容和方法具体如下:

若因素变量的OR值等于1,表示该因素变量在实验组和对照组发生事件的风险相等;若因素变量的OR值小于1,表示该因素变量在实验组发生事件的风险小于对照组;若因素变量的OR值大于1,表示该因素变量在实验组发生事件的风险高于对照组;

计算均值、50%位置的值、25%位置的值、75%位置的值、最大值和最小值在实验组和对照组的的高低方向;若均值在实验组的数值大于对照组,记为大于;如果均值在实验组的数值等于对照组,记为等于;若均值在实验组的数值小于对照组,记为小于;再继续比较中值、25%位置的值以及75%位置的值在实验组和对照组的数值大小;

离散型和分类型变量数据统一记为不能比较;

若显著性P值若小于等于0.05记为统计显著,显著性P值若大于0.05记为统计不显著。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏品生医疗科技集团有限公司;南京品生医疗科技有限公司,未经江苏品生医疗科技集团有限公司;南京品生医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010320034.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top