[发明专利]一种基于机器学习的超声随访患者筛选方法在审
申请号: | 202010371381.X | 申请日: | 2020-05-06 |
公开(公告)号: | CN111524570A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 张敬谊;李静;潘怀燕;郑文婕;李学源;李光亚;肖筱华 | 申请(专利权)人: | 万达信息股份有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H30/20;G16H50/70;G06F40/289;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 徐俊 |
地址: | 200233 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 超声 随访 患者 筛选 方法 | ||
1.一种基于机器学习的超声随访患者筛选方法,其特征在于,包括以下步骤:
步骤1、采集患者就诊记录数据,患者就诊记录数据包括病理报告数据、影像报告数据和超声报告数据以及与患者相对应的患者唯一标识,依据采集的不同患者的患者就诊记录数据构建基础信息数据仓库。
步骤2、按照患者唯一标识,将基础信息数据仓库中的所有患者就诊记录数据与患者进行关联,构建与每个患者相关联的超声患者信息表;
步骤3、针对步骤2得到的超声患者信息表中的样本的不均衡问题,采用过采样的方式对数据进行处理,进而达到正负样本量平衡;然后根据随访信息,将超声患者信息表中的样本划分为随访样本和非随访样本,并分别用不同的值对其标记;最后从总体中进行抽样,然后进行合并,获得训练样本;
步骤4、对训练样本中的病理报告和超声报告进行分词处理,并筛除一些无关分词结果;
步骤5、以TF-IDF和Word2Vec两种方法分别将文本分词结果转换为特征向量矩阵来描述文档;
步骤6、通过卡方检验对步骤5构建的特征向量进行选择,选择有用信息来进行机器学习建模;
步骤7、选择XGBoost、Lightgbm以及CNN三种模型进行二分类建模,预测得出样本为随访患者的概率值,依据模型效果对比,从TF-IDF和Word2Vec中选择一种训练特征矩阵,并从XGBoost、Lightgbm以及CNN选择一种模型作为最终用于预测的模型;
步骤8、设定阈值,将预测概率值大于等于设定阈值的样本加入随访患者列表,预测概率值小于设定阈值的样本为非随访患者,根据步骤7得到的模型分类结果,计算模型评估指标,并根据模型指标选出最佳模型。
2.如权利要求1所述的一种基于机器学习的超声随访患者筛选方法,其特征在于,所述步骤2包括以下步骤:
步骤201、剔除基础信息数据仓库中患者就诊记录数据中的无效数据;
步骤202、将患者就诊记录数据中属于同一次检查的超声所见字段和超声所得字段合并成一个超声报告,同时,将病理所见字段和病理所得字段合并成一个病理报告;
步骤203、把每条患者就诊记录数据中的超声报告与病理报告进行多对多匹配,从而将患者就诊记录数据拆分形成若干条新的数据记录,进行多对多匹配后,每条患者就诊记录包含同一个患者的一个超声报告跟一个病理报告,构建得到新的数据集;
步骤204、对步骤203得到的新的数据集中的数据通过正则表达式抽取文本数据中的患者特征信息,并将患者特征信息转换为数值型数据;然后,填补缺失值,并处理异常值;最后,对无关指标进行剔除,对缺失值比例大于一定值的指标进行删除,并对数据进行归一化处理,得到超声患者信息表。
3.如权利要求2所述的一种基于机器学习的超声随访患者筛选方法,其特征在于,步骤201中,所述无效数据为有超声报告但无病理报告的患者就诊记录数据。
4.如权利要求1所述的一种基于机器学习的超声随访患者筛选方法,其特征在于,步骤4中,分词工具采用JIEBA分词。
5.如权利要求1所述的一种基于机器学习的超声随访患者筛选方法,其特征在于,步骤5中,采用TF-IDF算法构建词特征向量矩阵,将标记样本中的病理报告与超声报告的分词结果训练TF-IDF矩阵,包括以下内容:
对于每类文档集中的每个文档里的每个分词,利用TF-IDF算法计算其在该文档中的权重值K(t,Di),权重值K(t,Di)表示分词t在文档Di(i=1,2,…,M)中的权值,M训练文档的总数。TF-IDF算法综合考虑了词t在单个文档中出现的概率tf以及该词t在整个文档集中的权重idf。词t的权重idf计算公式为:idf(t)=log(M/nt+0.01),其中,nt为训练文档集中出现词t的文档数。TF-IDF算法的计算公式为:
式中,tf(t,Di)为词t在文档Di中的词频,分母为归一化因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万达信息股份有限公司,未经万达信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010371381.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仪器用防护机构
- 下一篇:卫生间基层防水施工方法