[发明专利]一种基于Efron近似优化的生存风险建模方法有效

申请号：	201910315815.1	申请日：	2019-04-19
公开（公告）号：	CN110110906B	公开（公告）日：	2023-04-07
发明（设计）人：	付波;刘沛;郑鸿;钟晓蓉;邓玲	申请（专利权）人：	电子科技大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q10/067;G06N5/01;G16H50/30
代理公司：	电子科技大学专利中心 51203	代理人：	周刘英
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 efron 近似优化生存风险建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Efron近似优化的生存风险建模方法，其特征在于：该方法包括如下步骤：

S1)在最优梯度提升树XGBoost的模型算法框架下，首先构建用于建立目标行业生存预测模型的生存数据的表达式；

S2)定义所述目标行业生存预测模型的生存数据对应的损失函数表达式，并计算所述损失函数；

S3)推导所述损失函数对应的一阶梯度和二阶梯度表达式，并计算所述损失函数对应的一阶梯度和二阶梯度；

S4)将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树XGBoost的模型算法框架中，由最优梯度提升树XGBoost的模型算法框架自动训练生成所述目标行业的生存预测模型；

所述目标行业为金融、保险、医疗、交通和工业中的任意一种；

其中，所述步骤S1)中构建用于建立目标行业生存预测模型的生存数据的表达式具体为：所述用于建立目标行业生存预测模型的生存数据由若干个观测对象的生存数据组成，其中，任意一个观测对象i的生存数据可以表示为一个三元组集合{(x_i,T_i,δ_i)|i＝1,2,…,n}，i表示第i个观测对象，n为观测对象的总个数，另外，表示第i个观测对象的协变量，表示第i个观测对象的末次观测时间，δ_i∈{0,1}表示在T_i时刻是否观测到第i个观测对象发生特定事件，其中，δ_i＝0表示在T_i时刻未观测到第i个观测对象发生特定事件；δ_i＝1表示在T_i时刻观测到第i个观测对象发生特定事件；定义集合R(t)＝{i|T_i≥t,i＝1,2,…,n}表示在离散时间点t时刻处于危险期的观测对象集合；集合D＝{t₁,t₂,…,t_k}表示所有观测对象中发生特定事件的不同离散时间点，共k个不同离散时间点；集合N(t)＝{i|T_i＝t,i＝1,2,…,n}表示所有观测对象中末次观测时间等于t的观测对象集合；集合q(t)＝{i|T_i＝t,δ_i＝1,i＝1,2,…,n}表示所有观测对象中在离散时间点t时刻发生特定事件的观测对象集合；C_t＝|q(t)|表示集合q(t)的大小；对集合q(t)中的C_t个观测对象，它们的权值w分别对应集合中的每一个元素，即集合q(t)中的第j个观测对象的权值

所述步骤S2)中定义所述目标行业生存预测模型的生存数据对应的损失函数表达式，并计算所述损失函数具体包括：

S201)根据步骤S1)构建的所述用于建立目标行业生存预测模型的生存数据的表达式为最优梯度提升树XGBoost的模型算法框架定义损失函数，采用Efron近似作为偏似然函数，并对该偏似然函数取负对数，得到用于最优梯度提升树XGBoost的模型算法框架的损失函数，所述损失函数的表达式如下：

其中，τ表示对于任意t∈D，所述集合R(t)中任意一个观测对象；τ′表示对于任意t∈D，所述集合q(t)中任意一个观测对象；表示所述集合q(t)中第j个观测对象的预测概率；

S202)将满足步骤S1)构建的生存数据表达式的生存数据训练集输入经过步骤S201)定义了损失函数表达式后的最优梯度提升树XGBoost的模型算法框架中，所述经过步骤S201)定义了损失函数表达式后的最优梯度提升树XGBoost的模型算法框架对所述生存数据训练集中的任意一个观测对象i的生存数据的预测值为此时，对于所述集合q(t)中第j个观测对象，预测值等于步骤S201)中定义的预测概率的值,然后根据得到的预测值按照步骤S201)定义的所述损失函数的表达式，计算得到L；

所述步骤S3)推导所述损失函数对应的一阶梯度和二阶梯度表达式，并计算所述损失函数对应的一阶梯度和二阶梯度具体包括：

S301)定义所述步骤S201)定义的损失函数的表达式相对于所述集合q(t)中任意一个观测对象j的预测概率的一阶梯度g_j和二阶梯度h_j的表达式分别为：

其中，

α(t)＝∑_j∈q(t)1/[SR(t)-w_j*SD(t)]，

β(t)＝∑_j∈q(t)w_j/[SR(t)-w_j*SD(t)]，

ω(t)＝∑_j∈q(t)[1-(1-w_j)²]/[SR(t)-w_j*SD(t)]²；

S302)根据所述步骤S202)得到的预测值按照步骤S301)定义的所述损失函数的一阶梯度和二阶梯度表达式，计算得到一阶梯度g_j和二阶梯度h_j；

所述步骤S4)中将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树XGBoost的模型算法框架中，由最优梯度提升树XGBoost的模型算法框架自动训练生成所述目标行业的生存预测模型具体包括：

S401)根据步骤S2)的描述，编程实现XGBoost库自定义损失函数的接口；并进一步根据步骤S3)的描述，编程实现XGBoost库自定义损失函数一阶梯度和二阶梯度的接口；

S402)设置最优梯度提升树XGBoost的模型的参数，采用所述生存数据训练集训练得到所述目标行业生存预测模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载