[发明专利]一种基于深度半监督多任务学习生存分析的疾病预后预测系统在审
申请号: | 202010273957.9 | 申请日: | 2020-04-09 |
公开(公告)号: | CN111640510A | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 李劲松;池胜强;田雨;周天舒;叶前呈 | 申请(专利权)人: | 之江实验室 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H70/20;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 监督 任务 学习 生存 分析 疾病 预后 预测 系统 | ||
1.一种基于深度半监督多任务学习生存分析的疾病预后预测系统,其特征在于,包括:用于获取疾病预后数据的数据获取模块;用于对疾病预后数据进行缺失值处理和归一化处理的数据预处理模块;用于对疾病预后数据进行建模的预测模型构建模块;用于将数据预测结果进行展示的预测结果展示模块;所述预测模型构建模块中采用基于深度半监督多任务学习的生存分析方法,具体步骤如下:
(1)在预后数据生存分析中,给定的数据集记为:D={(X1,T1,δ1),(X2,T2,δ2),...,(Xi,Ti,δi),...,(XN,TN,δN)}。(Xi,Ti,δi)表示一条数据实例,其中Xi为第i条数据特征向量;δi为第i条数据的删失指示变量,当δi=1时,表示该数据为非删失数据,即观测到了事件的发生,当δi=0时,表示该数据为删失数据,即没有观测到事件的发生;Ti表示第i条数据的生存时间。对于非删失数据,Ti等于观察到的生存时间Oi;对于删失数据,Ti等于删失时间Ci。
数据集的特征可以表示为:
其中,N是样本数量,M是特征数量。
数据集的标签可以表示为:
Y={(T1,δ1),(T2,δ2),…,(Ti,δi),…,(TN,δN)}
(2)将生存时间看作多个时间点,将每个样本的原始标签信息转化为一个K维的生存状态向量,其中K=max(Ti),i=1,2,...,N,是所有样本中的最大生存时间。生存状态向量中的每个元素表示该样本在这一时间点的事件发生、不发生或未知。转化后的数据集标签可以表示为:
(3)构建深度神经网络,该深度神经网络具有一个输入层、多个输出层,该深度神经网络的输入为数据集的特征X,输出标签为Y,每个输出层对应Y中的每一个y,即每个输出层对应不同时间的事件预测任务。该深度神经网络可以对相同任务在K个不同时间做出预测。
(4)构建预测模型,预测模型的目标函数由对数损失、L1损失、L2损失、半监督损失和排序损失五个部分组成:
1)对数损失
针对有标签数据,对于不考虑竞争风险的二分类问题,模型利用对数损失通过惩罚错误的分类,衡量分类器的准确性。记标签为y,y∈{0,1}。通过极大似然估计法来估计参数θ,似然函数为:
其中,l为有标签样本数量,p(Xi;θ)为样本Xi的后验概率。对似然函数取对数,得到对数似然函数,即对数损失函数:
即令每个样本属于其真实标记的概率越大越好。
对于考虑竞争风险的生存分析问题,把每个时间点的事件预测看作一个多分类问题。假设在给定Xi时,y的条件概率分布为p(yi=k|Xi;θ),其中,k=1,2,...,C,C是所有可能出现的结局数量。通过极大似然估计法来估计参数θ,对应的对数损失函数为:
其中,I{yi=k}是指示函数,当yi=k时,I{yi=k}=1;否则,I{yi=k}=0。
2)L1损失:
L1(θ)=||θ||
3)L2损失
L2(θ)=||θ||2
4)半监督损失
针对无标签数据,通过给目标函数添加一个熵约束的正则化项实现对无标签数据的利用。
对于不考虑竞争风险的二分类问题,事件状态是一个服从伯努利分布,参数为p的随机变量,其熵定义如下:
H(p)=-plogp-(1-p)log(1-p)
则对于无标签数据,熵约束正则化定义如下:
其中,u为无标签样本数量,p为事件发生的概率。如果无标签数据的类别是确定的,则熵约束正则化项会很小。
对于考虑竞争风险的多分类问题,无标签数据的熵约束正则化定义如下:
5)排序损失
对生存概率的非递增趋势,通过给目标函数添加一个排序损失进行约束。排序损失定义如下:
其中,pi,p(yi=1|Xi;θ)表示第i个样本在时间p发生死亡事件的概率。即当时间p<q时,第i个样本事件发生的概率应满足pi,p(yi=1|Xi;θ)<pi,q(yi=1|Xi;θ),否则,就对这对事件发生概率施加惩罚;I(pi,p(yi=1|Xi;θ)>pi,q(yi=1|Xi;θ))是指示函数,当pi,p(yi=1|Xi;θ)>pi,q(yi=1|Xi;θ)时,I=1;否则,I=0。
综上,基于深度学习的半监督多任务生存分析模型,即预测模型的目标函数为:
Ltotal(θ)=l(θ)+λ1L1(θ)+λ2L2(θ)+λ3Ω(θ)+λ4R(θ)
其中,l(θ)是对数损失,L1(θ)是L1损失,L2(θ)是L2损失,Ω(θ)是半监督损失,R(θ)是排序损失,λ1,λ2,λ3,λ4是控制正则项强度的参数。
利用疾病数据进行模型训练,得到模型的参数θ,从而确定预测模型。对于新的疾病数据,利用预测模型进行预测,得到疾病预后的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010273957.9/1.html,转载请声明来源钻瓜专利网。