[发明专利]电子医疗记录数据的缺失值填充方法有效

申请号：	201911210250.7	申请日：	2019-12-02
公开（公告）号：	CN110957015B	公开（公告）日：	2023-04-28
发明（设计）人：	张莹;欧阳嘉伟;蔡祥睿;袁晓洁	申请（专利权）人：	南开大学
主分类号：	G16H10/60	分类号：	G16H10/60;G16H50/70;G06F18/214;G06N3/084
代理公司：	天津耀达律师事务所 12223	代理人：	侯力
地址：	300071***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	电子医疗记录数据缺失填充方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.电子医疗记录数据的缺失值填充方法，具体步骤如下：

步骤1、数据预处理

首先对电子医疗记录进行数据抽取与标准化处理，进而构建能够直接输入模型的数值矩阵与缺失状态矩阵；

步骤1.1、数据抽取与标准化处理；

收集电子医疗记录数据，选取用于研究的医疗时序特征，根据患者标识提取出与对应患者相关的时序特征数据；设置用于研究的患者数据窗口的阈值，过滤去掉特征的时序长度未达到阈值的患者，并截取剩下患者在窗口内的时序特征数据用于研究；

检测并过滤剩下数据中的噪声值与异常值，同时把这些噪声值与异常值与未测量的值都归为缺失值；之后设置固定时间长度对每个患者的数据按照时间进行切片，并把每个时间片段中的患者数据按对应特征求取均值进行聚合；

步骤1.2、构建数值矩阵与缺失状态矩阵；

为使数据可直接用于模型训练，根据数据值与缺失信息构造数值矩阵与缺失状态矩阵；

定义1：数值矩阵X，定义如下：

数值矩阵代表单个患者的多元时序医疗数据，数值矩阵的行向量代表每个特征在不同时间的数值，列向量代表每个时刻不同特征的数值：

数值矩阵由n个时间维度的数据向量构成，每个向量x_i包含d个医疗特征的数值；对于存在的值，矩阵中元素x_ij为实数；对于缺失值，x_ij设置为0；

定义2：缺失状态矩阵M，定义如下：

缺失状态矩阵代表患者不同时刻各个特征的数据缺失情况；考虑到数值矩阵中存在的值也可能为0，因此需要额外引入一个缺失状态矩阵来标记数值矩阵中元素的存在与缺失两种状态；缺失状态矩阵中的每个元素标明数值矩阵对应元素是否缺失：

M＝(m₁,…,_i…,_n)∈{0,1}^d×n

对于矩阵中元素m_ij，赋值规则如下：

步骤2、挖掘患者特征的数值信息与缺失规律

步骤1得到的数值矩阵与缺失状态矩阵表征了模型需要的全部信息，并且能够直接用于训练；通过构建两个循环神经网络中经典的GRU(Gated Recurrent Unit)模型，挖掘数值矩阵反映的数值信息与缺失状态矩阵反映的缺失规律，并生成对应的特征向量；

步骤2.1、根据数值矩阵挖掘患者特征的数值信息；

数值矩阵记录患者特征测量到的值，矩阵元素反映特征数据值的变动范围和变化规律信息；GRU模型按时序读取患者的特征数值向量，并通过更新或者重置模型的记忆单元来记录数值矩阵在时间维度上的变化规律；同时模型在每个时刻通过一层隐含层输出对应时刻数值信息的特征向量H_i：

H_i＝RU_H(x_i)

步骤2.2、根据缺失状态矩阵挖掘患者特征的缺失规律；

缺失状态矩阵记录患者特征的缺失情况，矩阵元素反映数据的缺失规律；通过另一个GRU模型挖掘缺失状态矩阵的变化规律，并且每个时刻输出对应的缺失规律特征向量h_i：

h_i＝RU_h(m_i)；

步骤3、生成患者生理状态特征

未缺失的患者数值信息体现患者身体素质的水平，特征的缺失规律反映患者身体健康的变动情况；为结合未缺失的患者数值信息与特征的缺失规律，构建一个基于门机制的聚合层以生成用于过滤与更新信息的门控制向量g_i，此门控制向量融合第2步得到的数值信息特征向量H_i和缺失规律特征向量h_i，进而生成对应时刻表明患者生理状态的特征向量C_i；具体操作如下：

g_i＝(W_gh_i+_g)

C_i＝tanh(W_c[_i⊙H_i]+b_c)

其中g_i是门控制向量，W_g、b_g、W_c、v_c是模型的超参数；

考虑到数值信息与填充任务更加相关，缺失规律主要为填充数值提供辅助效用；通过σ函数把缺失规律特征向量的值映射到[0,1]区间，此函数输出的门控制向量g_i用于优化数值信息，并通过一个tanh激活函数生成更加符合患者生理状态的特征变量；

步骤4、推断电子医疗记录中的缺失值

为实现对电子医疗记录中缺失值的合理推断，根据第3步得到的生理状态特征生成填充候选值，同时基于未缺失的存在值生成特征回归值，并通过权重参数按比例结合填充候选值与特征回归值，以此作为缺失部分的推断值；

步骤4.1、基于生理状态特征生成填充候选值；

步骤3聚合层生成的生理状态特征是基于患者的历史数值信息和缺失规律对患者当前状态做出的判断，为实现对缺失值的推断，运用全连接层把上一时刻生成的生理状态特征向量C_i-1映射到估计当前时刻各个特征数值的填充候选向量

其中W_H、b_H是模型的超参数；

步骤4.2、基于存在值生成特征回归值；

为了提高推断缺失值的合理性，基于当前时刻未缺失的存在值生成特征回归值，利用特征之间的相互关系对当前时刻的缺失值进行估计；为实现特征回归，采用全连接层映射存在值向量x_i到估计缺失值的特征回归向量

其中w_R、b_R是模型的超参数；并且W_R的对角线元素是0，这样能够避免发生用自己推断自己的情况；

当缺失率较高时，为数不多的存在值无法发挥很大的效用，因此特征回归值需结合第4.1中生成的填充候选值对缺失部分做出更合理的推断；

步骤4.3、通过权重参数结合填充候选值与特征回归值，以此推断缺失值；

填充候选值是基于患者的历史数据对缺失值做出的推断，特征回归值是基于患者当前时刻数据对缺失值做出的估计，通过一个权重参数β_i分配填充候选值与特征回归值这两部分重要性的比例；这个权重参数是通过σ函数映射当前时刻的缺失状态向量m_i得到的，映射结果是一个元素值在[0,1]区间的向量；缺失状态向量标明当前时刻的缺失情况：当缺失率较高时，在推断缺失值时应该多考虑基于历史数据的填充候选值；当缺失率较低时，则会多考虑基于当前数据的特征回归值；具体的推断公式如下所示：

β_i＝(W_βm_i+_β)

其中W_β、b_β是模型的超参数；是推断值向量；

步骤5、用推断值填充缺失值

步骤4.3步得到的推断值向量既包含对缺失值的估计，也含有对存在值的推理；为判断填充是否准确，把存在值与推理值的二阶范数作为填充误差，并以此作为损失函数训练模型，以提高模型对缺失值填充的效果；损失函数为：

当填充误差未达到预设的阈值时，模型会用推断值更新数值矩阵中的缺失值，并回到步骤2继续训练模型；当填充误差达到阈值，此时模型对缺失值的推断达到最优，通过推断值填充缺失部分，并保留未缺失部分以得到当前时刻的完整数据向量：

整合每个患者各时刻经过填充后的数据向量，即能够得到完整的电子医疗记录数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南开大学，未经南开大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911210250.7/1.html，转载请声明来源钻瓜专利网。