[发明专利]一种在病历文本中识别出疾病内容的方法有效
申请号: | 201811360982.X | 申请日: | 2018-11-15 |
公开(公告)号: | CN111191668B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 罗立刚;张正宽;刘辉;张天泽 | 申请(专利权)人: | 零氪科技(北京)有限公司 |
主分类号: | G06F18/2411 | 分类号: | G06F18/2411;G16H10/60 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病历 文本 识别 疾病 内容 方法 | ||
本发明提供了一种在病历文本中识别出疾病内容的方法,包括步骤:A、将病历文本拆分成不同类型;B、针对所述不同类型文本内容分别进行特征向量提取;C、依据所提取的特征向量进行疾病确认。由上,区别于现有技术,本方法尊重了病历内容的差异化,通过对病历本文内容的拆分,确定出多个类型。对每个类型分别进行特征向量提取,并基于所提取的特征向量进行疾病确认,提高了疾病确认的准确性。
技术领域
本发明涉及电子文档处理技术领域,特别是一种在病历文本中识别出疾病内容的方法。
背景技术
医疗行业信息化程度高,但存在大量非结构化数据,严重影响临床医疗数据的质量,导致医疗数据的利用率并不高。由此产生的需求是:医疗数据的结构化势在必行。但是由于不同的疾病存在着明显区别,所以病历的结构化方式也有很大差异,采用通用结构化方式就会造成大量的结构冗余,不能满足不同疾病的个性化特点。
发明内容
本发明的主要目的在于提供一种在病历文本中识别出疾病内容的方法,包括步骤:
A、将病历文本拆分成不同类型;
B、针对所述不同类型文本内容分别进行特征向量提取;
C、依据所提取的特征向量进行疾病确认。
由上,区别于现有技术,本方法尊重了病历内容的差异化,通过对病历本文内容的拆分,确定出多个类型。对每个类型分别进行特征向量提取,并基于所提取的特征向量进行疾病确认,提高了疾病确认的准确性。
其中,在步骤A前,还包括对所述病历本文内容进行内容清洗,去除无效内容的步骤。
由上,由于病历中包含的文字信息多种多样,例如患者名字、医院名称等等,上述文字信息在疾病识别时被视为的无效信息。因此在将上述无效信息进行清洗后可以缩减后续的文字处理量。
其中,所述不同类型包括但不限于以下几类:出院诊断、病理诊断、出院小结和病理描述。
由上,通过将病历内容的采取差异化区分,从而克服了现有技术中通用结构化方式进行处理的弊端。
其中,所述步骤B包括以下子步骤:
B1:分别将所述不同类型文本内容转换成one-hot向量矩阵;
B2:分别对所述不同类型文本内容的one-hot向量矩阵进行卷积运算,提取特征向量;
B3:将所述不同类型文本内容的的特征向量进行组合。
由上,将文字采用one-hot向量矩阵进行归一化处理,进而提取特征以便于后续的疾病确认。
其中,在所述步骤B1后还包括对所述one-hot向量矩阵进行降维处理的步骤;
所述步骤B2中,对降维处理后的one-hot向量矩阵进行卷积运算,提取特征向量。
由上,由于针对实际病历每个词的one-hot向量长度约为6000字符,因此通过降维处理从而降低后续的运算量。
其中,所述步骤B2包括:
B21:采用不同窗口大小的卷积核对所述降维处理后的one-hot向量进行卷积运算;
B22:对所述步骤B21输出的特征向量进行池化处理;
B23:将步骤B22处理后的各特征向量进行组合。
由上,采用不同窗口大小的多个卷积核进行卷积运算的目的在于提取更准确的特征向量。若只有单个卷积核进行特征向量的提取显然特征提取是不充分的,因此可以添加多个卷积核以学习多种特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于零氪科技(北京)有限公司,未经零氪科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811360982.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于文本数据的即席关系分析系统及方法
- 下一篇:一种橡塑环保型地板的生产工艺