[发明专利]一种基于迁移学习的疾病领域间病人相似性度量迁移系统有效
申请号: | 201710136858.4 | 申请日: | 2017-03-09 |
公开(公告)号: | CN106934235B | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 刘杰;倪嘉志;马志柔;吴怀林;叶丹 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H50/20 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 疾病 领域 病人 相似性 度量 系统 | ||
1.一种基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:包括数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块;
数据预处理子模块,完成病人健康数据预处理任务;从医院数据库得到病人的四类信息数据,所述四类信息数据为病人基本信息、用药信息、化验信息和诊断信息数据,将上述四类信息数据分别进行数据清洗、医疗规则检验、标准化、向量化处理,得到病人特征向量矩阵,为相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块提供支持;
相似性度量评价子模块,完成病人间相似性的评价任务;根据数据预处理子模块得到的病人特征向量矩阵,抽取所述矩阵中关于诊断信息的ICD10疾病编码,利用Jaccard系数来评价病人间的相似性,得到病人间相似性的评价结果,作为监督信息为相似性度量学习子模块和相似性迁移学习子模块提供支持;
相似性度量学习子模块,完成疾病领域内病人相似性的度量工作;将从数据预处理子模块和相似性度量评价子模块分别得到的病人特征向量矩阵和病人间相似性的评价结果,利用度量学习模型处理,得到疾病领域内的度量矩阵,为相似性迁移学习子模块提供支持;
相似性迁移学习子模块,完成疾病领域间病人相似性的迁移工作;根据预处理子模块得到的病人特征向量矩阵、相似性度量评价子模块得到的病人间相似性的评价结果和度量学习子模块得到的疾病领域内的度量矩阵,经过迁移学习模型处理,得到病人计算相似度适用的度量矩阵,完成在疾病领域间的病人相似性迁移工作。
2.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:所述数据预处理子模块具体实现过程如下:
(1)病人健康数据的数据清洗过程,是将数据中的缺失值、异常值、不一致值数据找到并进行相应的处理,丢弃缺失值、异常值、不一致值数据;
(2)在清洗后的数据上进行医疗规则检验,即查看数据是否满足规定的医疗数据结构标准,若不满足需要增补相应字段,转至步骤(1);否则转至步骤(3);
(3)经步骤(1)、(2)处理后的数据进行数据标准化操作,即对病人基本信息、用药信息、化验信息和诊断信息数据中的字段进行特征组合、离散化、归一化处理,转至步骤(4);所述病人基本信息包含性别、年龄、民族、血型四类特征;病人用药信息包含用药种类、用药时间、用药剂量三类特征的组合;病人化验信息包含化验类别、化验部位、化验结果三类特征的组合;病人诊断信息包含ICD10疾病编码,并将该编码作为两个学习子模块的监督信息;
(4)将标准化后的病人健康数据根据病人唯一身份证号ID进行合并,整理得到病人特征向量矩阵。
3.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:所述相似性度量评价子模块具体实现过程如下:
(1)将数据预处理子模块输出的病人特征向量矩阵中与诊断信息相关的病人ICD10疾病编码提取出来,构成病人唯一身份证号ID与其ICD10疾病编码序列的对应数组;
(2)处理每位病人的ICD10疾病编码序列,截取编码前n位作为病人诊断标签,对该病人的标签进行去重操作;
(3)在步骤(2)输出的病人标签基础上,利用公式(1)计算两两病人间相似度,得到病人相似度监督信息;
其中,ya和yb分别表示病人a和b的标签。
4.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:所述相似性度量学习子模块具体实现过程如下:
(1)将数据预处理子模块输出的病人特征向量矩阵中与诊断信息无关的部分提取出来,构成新的病人特征向量矩阵,转至步骤(2);
(2)计算新的病人特征向量矩阵协方差矩阵作为病人度量矩阵的初始化值;
(3)通过病人度量矩阵计算每个病人的n个同构和异构邻居,通过监督信息计算所有病人同构邻居和异构邻居的距离误差值,进而得到平均距离误差;
(4)若平均距离误差值低于给定阈值,则说明满足了最大化间隔要求,转至步骤(6);否则,转至步骤(5);
(5)找到不满足条件的同构或异构邻居,使用梯度下降的方法更新度量矩阵中对应的参数值,转至步骤(3);
(6)输出该疾病领域内病人度量矩阵∑。
5.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:所述相似性迁移学习子模块具体实现过程如下:
(1)根据相似性度量学习子模块获取各个源疾病领域的度量矩阵∑i,并将这些度量矩阵进行向量化表示,向量化结果为
(2)根据疾病领域数量构造领域间关系矩阵Ω,并满足约束tr(Ω)=1;使用目标疾病领域病人特征向量矩阵的协方差矩阵初始化目标疾病领域病人度量矩阵∑m;
(3)判断专家是否给出目标疾病领域病人相似性监督信息,若给出则使用PSM矩阵计算监督信息;否则使用病人诊断标签计算监督信息;
(4)根据Ω、∑m参数利用公式2计算目标函数值,若目标函数误差高于给定阈值则转至步骤(5);否则转至步骤(6);
(5)通过坐标下降交替优化的方式更新Ω、∑m参数值,转至步骤(4);
(6)输出目标疾病领域内病人度量矩阵∑m;
Ω≥0
tr(Ω)=1
其中,度量矩阵∑不需要满足半正定约束;代表判断目标领域中j和k两个病人的相似性;PSM代表专家评估矩阵,若病人pj,pk是专家进行评估的,则使用e()函数根据阈值判断两个病人相似与否,否则使用o()函数根据两病人的诊断信息来判断两个病人相似与否;是将所有领域的度量矩阵向量化表示;约束tr(Ω)≥1是为了保证疾病领域间关系矩阵的规模,以防止迁移学习算法得到退化解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710136858.4/1.html,转载请声明来源钻瓜专利网。