[发明专利]基于文本分类的疾病预测方法、装置、计算机设备及介质在审
申请号: | 201911124341.9 | 申请日: | 2019-11-18 |
公开(公告)号: | CN110867231A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 任江涛;吴晓茎 | 申请(专利权)人: | 中山大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F16/33;G06F16/35 |
代理公司: | 深圳市赢源知识产权代理事务所(普通合伙) 44590 | 代理人: | 胡明;苏迎 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 分类 疾病 预测 方法 装置 计算机 设备 介质 | ||
1.一种基于文本分类的疾病预测方法,其特征在于,包括:
获取待诊断病人的电子病历数据,所述电子病历数据包括第一文本数据和非文本数据;
将所述电子病历数据中的非文本数据进行文本转换,生成第二文本数据;
将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接,得到待预测文本数据;
基于由神经网络模型训练生成的疾病预测模型,对所述待预测文本数据进行疾病标签预测,得到疾病标签。
2.如权利要求1所述的方法,其特征在于,所述非文本数据包括结构化数据,所述结构化数据包括化验结果和体征信息;
所述对所述电子病历数据中的非文本数据进行文本转换,生成第二文本数据,包括:
从所述电子病历数据中提取得到所述结构化数据;
对所述结构化数据中的各项指标进行类别化处理,得到类别化数据,所述类别化数据中的各项类别一一对应于所述结构化数据中的各项指标;
针对所述类别化数据中的各项类别,进行所述类别化数据的文本化处理,得到所述第二文本数据。
3.如权利要求2所述的方法,其特征在于,所述对所述结构化数据中的各项指标进行类别化处理,得到类别化数据,包括:
针对所述结构化数据中的每一项指标,确定该项指标对应的正常范围;
将该项指标中的指标值与该项指标对应的正常范围比较,得到该项指标对应的比较结果;
以该项指标对应的比较结果作为所述类别化数据中一项类别的类别值,以该项指标对应的指标名称作为该项类别的类别名称,生成对应于该项指标的该项类别;
根据所述结构化数据中各项指标分别对应的各项类别,得到所述类别化数据。
4.如权利要求2所述的方法,其特征在于,所述针对所述类别化数据中的各项类别,进行所述类别化数据的文本化处理,得到所述第二文本数据,包括:
针对所述类别化数据中的每一项类别,将该项类别的类别名称和类别值通过第一特定字符连接,生成对应于该项类别的一个文本化数据;
对所述类别化数据中各项类别分别对应的多个文本化数据通过第二特定字符连接,得到所述第二文本数据。
5.如权利要求1所述的方法,其特征在于,所述第一文本数据包括病史和检查报告;
所述将所述第二文本数据与所述电子病历数据中的第一文本数据进行拼接,得到待预测文本数据,包括:
从所述电子病历数据中提取出所述第一文本数据;
进行所述第一文本数据关于特定字段的过滤,得到第三文本数据;
将所述第二文本数据中的各字段与所述第三文本数据中的各字段连接,得到所述待预测文本数据。
6.如权利要求1至5任一项所述的方法,其特征在于,所述疾病预测模型包括嵌入层、双向长短期记忆层、自注意力层和输出层;
所述基于由神经网络模型训练生成的疾病预测模型,对所述待预测文本数据进行疾病标签预测,得到疾病标签,包括:
基于所述嵌入层,对所述待预测文本数据中的各字段进行数字编码,得到所述待预测文本数据对应的数字序列;
将所述待预测文本数据对应的数字序列输入至所述双向长短期记忆层,对所述待预测文本数据进行前向学习和后向学习,得到所述待预测文本数据对应的上下文信息;
利用所述自注意力层提供的权重系数,并结合所述待预测文本数据对应的上下文信息,进行所述待预测文本数据的语义特征提取,得到所述待预测文本数据对应的语义特征;
基于所述输出层的分类器,对所述待预测文本数据对应的语义特征进行疾病诊断分类,得到所述疾病标签,所述疾病标签包括若干个疾病诊断及其对应的权重系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911124341.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高水稻分蘖和再生的方法
- 下一篇:一种玻璃鳞片衬里混凝土复合管制作工艺