[发明专利]基于逆强化学习的ICU呼吸机与镇静剂管理方法及介质有效
申请号: | 202310151557.4 | 申请日: | 2023-02-22 |
公开(公告)号: | CN115831340B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 曹林霄;周浩泉;龚伟;朱怡飞;汤敏;李群超 | 申请(专利权)人: | 安徽省立医院(中国科学技术大学附属第一医院) |
主分类号: | G16H40/20 | 分类号: | G16H40/20;G16H50/20;G16H20/17;G16H20/40;G06N3/092 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 苗娟 |
地址: | 230001 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 icu 呼吸 镇静剂 管理 方法 介质 | ||
1.一种基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于,包括以下步骤,
步骤1、数据建模;对获取的医疗数据根据医疗决策场景的需求进行分析重构,将数据脱敏处理,并进行归一化处理,建立相关数据集;
步骤2、建立逆强化学习模型;根据预处理后的数据集,将生理状态以及医疗干预手段建立MDP模型,根据变分贝叶斯理论,确定模型优化目标,从专家的过去诊断记录中获取能够解释医生行为动作的奖励函数;
步骤3、模型训练:根据从过往轨迹数据中推测奖惩函数正向推测治疗策略,并不断优化该策略和示例策略间的差距;
步骤4、模型测试;
最后,利用训练后的模型对ICU呼吸机与镇静剂管理进行管理;
所述步骤2、建立逆强化学习模型,具体包括,
步骤2.1、模型优化目标;
步骤2.1.1、将奖励视作动作的潜在表征,定义一个以参数化的代理分布,以实现式(12)中的优化目标;
(12)
式(12)中为后验分布,为两个分布间的Kullback-Leibler距离;
步骤2.1.2、利用变分推断来获得后验分布,引入ELBO根据式(13)最大化,其等价于式(12);
(13)
步骤2.1.3、先验分布和变分分布的形式是不可知的,假设其为高斯过程先验,均值为0,方差为1,则由给出的变分后验分布使得:
(14)
其中和为以患者状态作为模型,以为参数的全连接网络所给出的模型的输出;
步骤2.1.4、根据Boltzmann合理性假设,将式(13)表示为:
(15);
步骤2.1.5、使用第二个策略神经网络来反映预期奖励的策略;根据一个受约束的优化目标,如式(16)所示:
(16)
式(16)中反映了约束强度的大小;
步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度,得到适用目标函数;
(17)
式(17)中KL散度可以在有限集上近似,并引入控制约束强度;这样参数和就有了相同的优化目标;
步骤2.3奖励正则化;
步骤2.3.1、假设式(16)中的约束满足,则对于式(14)所给定的先验分布,KL散度在隐含奖励上产生了一个稀疏调节器;
(18)
步骤2.3.2、KL散度根据式(18)得到:
(19)
通过学习这样的奖励并给定式(17)的最后一项,直接连接策略方面的单步奖励,确保了时间上的一致性。
2.根据权利要求1所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于:所述步骤1的数据建模,具体包括:
步骤1.1、将患者的生理指标看作为状态,在状态空间设计过程中,将一些能观察到的生理数据值纳入到评估病人状态的特征中;状态集包含患者以每小时为单位的多维生理状态数据;
步骤1.2、对患者所反馈的状态所采取的医疗干预手段,当给定患者t 时刻的状态后,训练得到的智能体面对这种状态所选择的医疗动作;对于动作空间来说,设动作表示在时间t采用的治疗动作,其中 表示呼吸机的状态,而表示注射的镇静剂剂量,因此动作空间表示为:
步骤1.3、数据集构建:对于每个时刻t,病人状态和医生采取的行动构成时间点t的示例轨迹;所有单个病人的住院轨迹构成了数据集,其中表示第i个病人的住院时长,m为患者数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽省立医院(中国科学技术大学附属第一医院),未经安徽省立医院(中国科学技术大学附属第一医院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310151557.4/1.html,转载请声明来源钻瓜专利网。