[发明专利]基于症状提取和特征表示的电子病历多标签分类方法有效
申请号: | 201811388476.1 | 申请日: | 2018-11-21 |
公开(公告)号: | CN109460473B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 李敏;郭东霖;卢长利 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G16H10/60;G06N3/04 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 杨萍 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于症状提取和特征表示的电子病历多标签分类方法,考虑到疾病与症状以及症状间的关联关系对电子病历的疾病标签多分类问题的影响,采用两种不同的症状表征方法:使用TF‑IDF构建症状向量以及使用word2vec学习症状向量。将从电子病历中抽取的两种症状向量序列分别作为所述两个双向LSTM模型的输入序列,训练两个双向LSTM模型;对于未知疾病标签的电子病历,将从其中提取的症状对应的两种症状向量构成两种症状向量序列,分别输入两个训练好的双向LSTM模型,得到两个概率向量;对两个概率向量进行加权组合,得到最终的分类向量。本方法分类效果和适用性好。 | ||
搜索关键词: | 基于 症状 提取 特征 表示 电子 病历 标签 分类 方法 | ||
【主权项】:
1.基于症状提取和特征表示的电子病历多标签分类方法,其特征在于,包括以下步骤:步骤1、获取已知疾病标签的电子病历集合作为样本集;步骤2、从样本集中提取症状序列;将样本集中各个样本与疾病标签的映射关系转换为症状与疾病标签的映射关系;对于症状i,统计其与多少疾病标签存在映射关系,以及与每个疾病标签存在映射关系的次数,并根据统计数据使用TF‑IDF模型构建其第一症状向量x1i,其中i=1,2,…,M,M为所有症状的个数;由所有症状的第一症状向量构成症状向量序列X1,X1={x11,x12,…,x1i,…,x1M};步骤3、基于样本集中的电子病历文本训练word2vec模型,训练完成之后,使用word2vec模型将每个症状映射为一个症状向量,称为第二症状向量,其中症状i映射得到的第二症状向量记为x2i;由所有症状的第二症状向量构成症状向量序列X2,X2={x21,x22,…,x2i,…,x2M};步骤4、对于样本集中的每一个电子病历,分别构建其对应的第一症状向量序列、第二症状向量序列和疾病标签向量;构建一个电子病历对应的第一症状向量序列和第二症状向量序列的方法为:首先从其中提取症状序列;然后对于症状序列中的每一个症状k,分别从X1和X2中找出其第一症状向量x1k和第二症状向量x2k;由症状序列中所有症状的第一症状向量构成该电子病历对应的第一症状向量序列X′1={x1k},所有症状的第二症状向量构成该电子病历对应的第二症状向量序列X′2={x2k},其中k∈{1,2,…,M};构建电子病历的疾病标签向量,其维数等于所有疾病标签的个数N,每一维度对应一个疾病标签,若该电子病历带有某一疾病标签,则疾病标签向量中相应维度的取值为1,若该电子病历不带某一疾病标签,则疾病标签向量中相应维度的取值为0;步骤5、训练两个双向LSTM模型;训练过程为:将样本对应的第一症状向量序列和疾病标签向量作为第一双向LSTM模型的输入序列和输出,训练第一双向LSTM模型;将样本对应的第二症状向量序列和疾病标签向量作为第二双向LSTM模型的输入序列和输出,训练第二双向LSTM模型;每一个训练好的双向LSTM模型的输出都是一个概率向量,表示与输入的症状向量序列相应的电子病历与各种疾病标签相关的概率;步骤6、对于未知疾病标签的电子病历,首先构建其对应的第一症状向量序列和第二症状向量序列;再将其对应的第一症状向量序列和第二症状向量序列分别输入两个训练好的双向LSTM模型,得到两个概率向量;最后,对两个概率向量进行加权组合,得到最终的分类向量,表征该电子病历与各种疾病标签相关的概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811388476.1/,转载请声明来源钻瓜专利网。
- 上一篇:文本分类方法和装置、及电子设备
- 下一篇:用户偏好趋势挖掘方法