[发明专利]一种基于深度学习混合模型的再住院风险预测方法有效
申请号: | 201910190496.6 | 申请日: | 2019-03-13 |
公开(公告)号: | CN109949936B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 张岩龙;幸勇;邓军;罗林;王利亚 | 申请(专利权)人: | 成都数联易康科技有限公司 |
主分类号: | G16H50/30 | 分类号: | G16H50/30;G16H50/70;G06N3/0442;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08 |
代理公司: | 成都中亚专利代理有限公司 51126 | 代理人: | 王岗 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 混合 模型 住院 风险 预测 方法 | ||
1.一种基于深度学习混合模型的再住院风险预测方法,其特征在于:该方法包括以下步骤:
步骤1:收集数据集,包括患者个体特征和外部环境特征;
步骤2:特征分组及预处理,将特征分为静态特征和时间序列特征;
步骤3:时间序列特征挖掘,对时间序列特征进行统计分析、构建LDA模型和双向LSTM模型;所述的时间序列特征挖掘,包括如下子步骤:
步骤3.1:对时间序列特征进行统计分析,包括住院次数计数、住院时长求和、住院费用求平均值、入院病情计数;
步骤3.2:对时间序列特征中的手术操作按ICD-9编码计数,出院诊断及出院病情按ICD-10编码计数,并分别构建LDA模型,挖掘患者疾病间的相似性;
所述的,LDA模型为隐含狄利克雷分布模型(Latent Dirichlet Allocation),该模型采用词袋模型,将每一篇文档视为一个词频向量,通过将文档表示为一个主题向量来达到特征降维的目的;
将研究期间每个患者所患疾病作为一个文档,每种疾病编码为一个字符,运用LDA模型计算文档之间的语义相似度,寻找字符间的语义主题;
构建LDA模型,包括如下子步骤:输入患者手术操作、出院诊断或出院病情计数;通过分析困惑度与聚类效果计算主题数l;对特征进行训练,构建LDA模型;反复迭代,直至收敛;提取各主题模型前m个主题关键词;
以出院诊断编码为例,主题模型计算公式为:
Topici=αi1*jbbmi1+…+αij*jbbmij+…+αim*jbbmim,(i=1,...,l)
其中,αij为主题模型中出院诊断编码jbbmij的系数;m表示构成每个主题模型中的关键词数量;l表示出院诊断编码的主题数,通过分析困惑度与聚类效果的相关关系确定,计算公式为:
其中,p(w)指训练集中每个单词出现的概率,p(w)=p(z|d)*p(w|z);p(z|d)表示一个文档中每个主题出现的概率,p(w|z)表示词典中每一个单词在某个主题下出现的概率;
步骤3.3:对时间序列特征,构建双向LSTM模型,挖掘患者的疾病变化趋势及治疗路径;
所述的,LSTM模型为长短期记忆网络(Long Short-Term Memory),通过分析患者本次住院前后所患疾病及药物治疗情况,挖掘患者的疾病变化趋势及治疗路径,计算公式为:
ht=ot⊙tanh(ct)
其中ft,it和ot为三个门控制单元,主要用来控制信息传递;遗忘门ft控制上一个时刻的内部状态ct-1需要丢弃多少信息;输入门it控制当前时刻的候选状态ct有多少信息需要保留;输出门ot控制当前时刻的内部状态ct有多少信息需要输出给外部状态ht;⊙表示向量元素乘积;ct-1为上一时刻的内部状态;ct是通过非线性函数得到的候选状态,公式如下所示:
其中tanh()为双曲正切函数;W,U和b为可学习的网络参数;xt为当前时刻的输入数据;在每个时刻t,长短期记忆网络的内部状态ct记录了从开始到当前时刻的历史信息;
步骤4:特征拼接,将静态特征和经特征工程处理的时间序列特征融合,作为CNN模型的输入;
步骤5:构建CNN模型,预测患者再住院风险。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联易康科技有限公司,未经成都数联易康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910190496.6/1.html,转载请声明来源钻瓜专利网。