[发明专利]基于逆强化学习的ICU呼吸机与镇静剂管理方法及介质有效

申请号：	202310151557.4	申请日：	2023-02-22
公开（公告）号：	CN115831340B	公开（公告）日：	2023-05-02
发明（设计）人：	曹林霄;周浩泉;龚伟;朱怡飞;汤敏;李群超	申请（专利权）人：	安徽省立医院（中国科学技术大学附属第一医院）
主分类号：	G16H40/20	分类号：	G16H40/20;G16H50/20;G16H20/17;G16H20/40;G06N3/092
代理公司：	合肥天明专利事务所(普通合伙) 34115	代理人：	苗娟
地址：	230001 ***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习 icu 呼吸镇静剂管理方法介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于逆强化学习的ICU呼吸机与镇静剂管理方法，其特征在于，包括以下步骤，

步骤1、数据建模；对获取的医疗数据根据医疗决策场景的需求进行分析重构，将数据脱敏处理，并进行归一化处理，建立相关数据集；

步骤2、建立逆强化学习模型；根据预处理后的数据集，将生理状态以及医疗干预手段建立MDP模型，根据变分贝叶斯理论，确定模型优化目标，从专家的过去诊断记录中获取能够解释医生行为动作的奖励函数；

步骤3、模型训练：根据从过往轨迹数据中推测奖惩函数正向推测治疗策略，并不断优化该策略和示例策略间的差距；

步骤4、模型测试；

最后，利用训练后的模型对ICU呼吸机与镇静剂管理进行管理；

所述步骤2、建立逆强化学习模型，具体包括，

步骤2.1、模型优化目标；

步骤2.1.1、将奖励视作动作的潜在表征，定义一个以参数化的代理分布，以实现式（12）中的优化目标；

(12)

式（12）中为后验分布，为两个分布间的Kullback-Leibler距离；

步骤2.1.2、利用变分推断来获得后验分布，引入ELBO根据式（13）最大化，其等价于式（12）；

(13)

步骤2.1.3、先验分布和变分分布的形式是不可知的，假设其为高斯过程先验，均值为0，方差为1，则由给出的变分后验分布使得：

(14)

其中和为以患者状态作为模型，以为参数的全连接网络所给出的模型的输出；

步骤2.1.4、根据Boltzmann合理性假设，将式（13）表示为：

(15)；

步骤2.1.5、使用第二个策略神经网络来反映预期奖励的策略；根据一个受约束的优化目标，如式（16）所示：

(16)

式（16）中反映了约束强度的大小；

步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度，得到适用目标函数；

(17)

式（17）中KL散度可以在有限集上近似，并引入控制约束强度；这样参数和就有了相同的优化目标;

步骤2.3奖励正则化；

步骤2.3.1、假设式（16）中的约束满足，则对于式（14）所给定的先验分布，KL散度在隐含奖励上产生了一个稀疏调节器；

（18）

步骤2.3.2、KL散度根据式（18）得到：

(19)

通过学习这样的奖励并给定式（17）的最后一项，直接连接策略方面的单步奖励，确保了时间上的一致性。

2.根据权利要求1所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法，其特征在于：所述步骤1的数据建模，具体包括：

步骤1.1、将患者的生理指标看作为状态，在状态空间设计过程中，将一些能观察到的生理数据值纳入到评估病人状态的特征中；状态集包含患者以每小时为单位的多维生理状态数据；

步骤1.2、对患者所反馈的状态所采取的医疗干预手段，当给定患者t 时刻的状态后，训练得到的智能体面对这种状态所选择的医疗动作；对于动作空间来说，设动作表示在时间t采用的治疗动作，其中表示呼吸机的状态，而表示注射的镇静剂剂量，因此动作空间表示为：

步骤1.3、数据集构建：对于每个时刻t，病人状态和医生采取的行动构成时间点t的示例轨迹；所有单个病人的住院轨迹构成了数据集，其中表示第i个病人的住院时长，m为患者数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽省立医院（中国科学技术大学附属第一医院），未经安徽省立医院（中国科学技术大学附属第一医院）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310151557.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载