[发明专利]一种恶性肿瘤合并静脉血栓栓塞症风险预测方法有效
申请号: | 202111007447.8 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113674864B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 徐玲;邓忠阳;刘海霞;罗兆林;雷海科;龙波;罗敏 | 申请(专利权)人: | 重庆大学 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/70;G06F18/2415;G06F18/214;G06F18/25 |
代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 王海凤 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 恶性肿瘤 合并 静脉 血栓 栓塞 风险 预测 方法 | ||
本发明公开了一种恶性肿瘤合并静脉血栓栓塞症风险预测方法,该方法首先对采集的病人信息进行预处理得到基础数据集,再进行双向联合重采样得到训练集,然后对训练集中每个训练样本进行特征筛选,去掉冗余特征;构建和训练StackingXgbMlp模型,该模型包括两层,第一层包括并联的一个XGBoost模型和一个MLP模型,第二层包括一个XGBoost模型;训练完成后将未知是否患病的病人信息采用S100的方法进行预处理,再采用S300的方法进行特征筛选得到待预测样本,将该待预测样本输入训练好的StackingXgbMlp模型中,输出待预测样本患病的预测概率。实验表明,本发明方法在预测准确性比传统方法好。
技术领域
本发明涉及通过大数据进行疾病预测的技术领域,特别涉及一种恶性肿瘤合并静脉血栓栓塞症风险预测方法。
背景技术
随着互联网的迅速发展,信息化技术广泛应用于医疗过程中。疾病的风险预测是医疗活动中极其重要的一环,它为患者的疾病诊断和治疗提供了坚实的基础。目前,疾病风险预测的主要手段是通过患者进行一系列复杂的指标项检测后,依赖临床医生所掌握的知识和经验,对风险进行预测。但是单个医生所具备的医疗知识和积累的经验有限,尤其在对于稀有疾病的患病风险预测方面,不足以准确的进行风险预测。本文研究的静脉血栓栓塞症是一种常见的肿瘤合并症,约10%~20%的静脉血栓栓塞症患者同时患有活动性肿瘤或有肿瘤病史。这种合并症症状隐匿,临床的漏诊和误诊率较高,近年来VTE在亚洲国家的发病率逐年上升。因此,如何在有限的医疗知识和经验的情况下,根据患者各项指标指数进行准确的疾病风险预测是一个亟待解决的问题。
随着医院信息化水平的提高,在临床就诊阶段积累了大量的电子化病历数据以及患者各项身体指标,疾病风险预测的依据也蕴藏在这些数据中。相应地,机器学习、大数据、人工智能等技术的发展为这些数据提供了用武之地。由于各种有利的条件,基于数据和机器学习的疾病风险预测和疾病诊断系统的研究大量出现。但这些关于疾病检测的研究都普遍存在以下几个问题:
(1)数据冗杂,难以提取。在现有的研究中,关于疾病的数据有的是患者的身体指标、有的存在于医生开的病历中。有的是结构化数据,而有的是文本数据。如何在冗杂的、大量的数据中找到最合适疾病风险预测的数据,是目前比较困难的问题之一。
(2)患病的病例较少,导致数据集样本不平衡。患病病例较少是普遍存在的现象,对于这个问题已经有很多成熟的解决方法,例如过采样和欠采样。通过重采样技术平衡数据集,从而满足模型对平衡数据的需求。但对于不同的不平衡比例需要使用不同的重采样方法,找到有效且合适的方法是目前疾病预测的工作之一。
(3)数据集特征数量太多,维度太高,影响模型的性能。疾病数据特征的高纬度会影响模型的分类结果。为了解决这一问题,不少研究提出了不同的特征筛选方法。目前采用PCA的方法解决特征冗余的问题,但对于数据分布属于非正态分布的数据,提取的主元并不是最优的。使用RFE-SVM来选择更加适用于分类器的特征,这是一种Wrapper式的特征选择算法,但所选特征会出现过适应的问题。对于疾病特征的选择也是目前亟需解决的问题之一。
(4)疾病数据样本小且不平衡,常见机器学习分类模型容易出现过拟合导致预测效果较差,有人提出将逻辑回归方法应用于疾病诊断问题上,但由于样本维度高,该方法容易产生过拟合,同时精确度也有待提高。有人提出使用随机森林模型来预测产后抑郁的风险,但同样不适用高纬度和不平衡数据。
发明内容
针对现有技术存在的上述问题,本发明的要解决的技术问题是:如何在现有数据特征维度高、样本类不平衡的情况下有效预测疾病。
为解决上述技术问题,本发明采用如下技术方案:一种面向不平衡数据的疾病风险预测方法,包括如下步骤:
S100:采集疑似患有和患有恶性肿瘤合并静脉血栓栓塞症病人的信息,一个病人对应一个样本,对采集的信息进行预处理得到基础数据集,对基础数据集中的所有样本标注标签确定负样本和正样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111007447.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动协同计算系统的任务分配方法和设备
- 下一篇:目标对象处理方法及装置