[发明专利]基于机器学习的原发性肝癌术后复发风险预测方法及系统在审
申请号: | 202010333234.3 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111554402A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 李婕;陈云亮;曹元奎;刘传礼;杨红丽;芮法娟;张思敏;樊俊青 | 申请(专利权)人: | 山东省立医院 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/50;G16H50/70;G06N3/08 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 250000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 原发性 肝癌 术后 复发 风险 预测 方法 系统 | ||
本发明属于医学数据处理技术领域,公开了一种基于机器学习的原发性肝癌术后复发风险预测方法及系统,对数据集进行过滤,并计算各属性与患者复发情况的相关系数,进行特征选择,得到影响原发性肝癌术后复发的关键因素,构建基于机器学习的原发性肝癌术后复发风险数据处理模型;利用特征数据以及原始病例数据采用KNN方法利用训练数据上对模型进行训练并调整模型参数;利用测试数据对处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度;进行数据处理。本发明采用基于KNN的原发性肝癌术后复发风险数据处理方法,能达到相比于其他处理方法更好的预测效果。
技术领域
本发明属于医学数据处理技术领域,尤其涉及一种基于机器学习的原发性肝癌术后复发风险预测方法及系统。
背景技术
目前,原发性肝癌是目前世界上常见的恶性疾病之一,与其他肿瘤一样,手术切除应该是原发性肝癌患者的首选,与大多数恶性肿瘤不同,原发性肝癌患者的术后复发率较高且术后患者5年生存率很低。针对这种现状,探寻预后影响因素、制定个性化治疗措施是目前世界医学界的重大攻关课题之一。但由于患者数据中各影响因素对原发性肝癌术后复发预测的相关性较低,传统的数据处理模型对此类问题的评估准确度不高。
通过上述分析,现有技术存在的问题及缺陷为:传统的数据处理模型对原发性肝癌术后复发的评估准确度不高。
解决以上问题及缺陷的难度为:数据是非线性的,并且存在较多的缺失值;各影响因素对原发性肝癌术后复发预测的相关性较低。
解决以上问题及缺陷的意义为:可以显著提升原发性肝癌术后复发风险预测的准确度,以对患者采取对应的治疗措施。
发明内容
针对现有技术存在的问题,本发明提供了一种基于机器学习的原发性肝癌术后复发风险预测方法及系统。
本发明是这样实现的,一种基于机器学习的原发性肝癌术后复发风险预测方法,包括:
步骤一,过滤去除原发性肝癌患者病例数据集中的异常值以及不相关数据,并计算各属性与患者复发情况的Pearson相关系数,进行特征选择,得到影响原发性肝癌术后复发的关键因素,构建基于机器学习的原发性肝癌术后复发风险数据处理模型;
步骤二,采用经过特征选择后得到的特征数据以及原始病例数据中的原发性肝癌术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据,采用KNN方法利用训练数据上对基于机器学习的原发性肝癌术后复发风险数据处理模型进行训练并调整模型参数;
步骤三,利用测试数据对基于机器学习的原发性肝癌术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度;
步骤四,利用构建得到的基于机器学习的原发性肝癌术后复发风险数据处理模型进行原发性肝癌术后复发风险数据处理。
进一步,步骤一中,所述Pearson相关系数计算方法公式为:
进一步,步骤二中,所述特征数据包括肿瘤大小、分化分级、是否有门脉癌栓、PLT、AFP、异常凝血酶、AST、WBC、和HBsAg共9个属性。
进一步,所述步骤二包括:
训练数据与测试数据的比例为8:2,采用KNN方法的k值为7,距离的度量方法为欧几里得距离;
所述利用KNN方法进行训练并进行参数调整包括以下步骤:
(1)根据给定的距离度量,在训练集中找出与x最邻近的k个点,涵盖这k个点的x的邻域记作Nk(x);
(2)在Nk(x)中根据分类决策规则决定x的类别y:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省立医院,未经山东省立医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010333234.3/2.html,转载请声明来源钻瓜专利网。