[发明专利]一种中文电子病历文本分析方法与系统有效
申请号: | 201810635258.7 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108831559B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 张学工;李季;闾海荣;陈文昌 | 申请(专利权)人: | 清华大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/332 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 电子 病历 文本 分析 方法 系统 | ||
中文电子病历文本分析方法与系统,该方法包括以下步骤:利用病历文本获取病历数据集;用正则处理分离数值变量和文本信息,根据上下文表述确定数值信息含义,利用正则表达式搜索并结构化保存不同类别的时间信息;采用自然语言处理对文本分词及词性标注,结合医学实体识别进一步筛选,确定文本中医学关键词汇的位置及类型;分析筛选出医学关键词汇和信息;利用上述相关结果,对病历进行仿真;将文本内容转化成数值向量;对各病历文本添加相似性标签;对病历文本的标注进行学习;根据标注和训练结果对新到的病历样本在病历数据集中筛选出具有相似性的病历。本发明对不同的评价标准,每一新到病历文本可从已有病历文本中找到不同的相似病历文本簇。
技术领域
本发明涉及机器学习技术领域,具体地说,涉及一种中文电子病历文本分析方法与系统。
背景技术
基于电子医疗信息分析的辅助诊断系统随着医院电子化和信息化的水平提高而得到广泛应用。医生除了可以从既往经手病历中获得对新病人的诊断治疗经验,也可以从辅助诊断系统中存储的其他相似病人的治疗手段得到启发。分析和利用电子病历中存储的信息,可以为医生做出精准的诊断提供帮助。本发明旨在对过往病历进行分析,如果专家对其中部分病历的相似性已经做出了判断,那么本发明将依据这种相似性关系,对新到病历进行分析,查找已有病历中和当前病历比较相似的病历或病历簇。
现阶段的对中文病历的分析主要是使用机器学习方法去对病历所描述的病人进行预测或结合医学图像信息对病人的病情进行分类等。相似性评估的主要手段则是通过度量学习来对结构化程度较高的病历中的数值型特征进行分析。
现有技术的缺陷和不足:
现有技术虽然将传统距离度量学习方法应用于中文病历文本分析系统当中,但是由于其数据或者研究方法的局限性导致现有技术仍然存在如下缺点:
(1)对数据的结构化程度要求较高。现有方法研究对象都是结构化程度比较高的病历。病历的各项内容都已经以某种特定的形式整理好。对于以大量自由医学文本形式存在的病历的分析较少,而本发明则提供了从中文病历的自由文本中抽取数值变量、时间信息、医学实体等部分。
(2)从实际应用角度考虑,现有技术从病历内容出发,试图去寻找一种合适的算法,计算病历之间的相似度,而没有挖掘给定标签背后潜在的规律或特质,进而寻找相似病历。
发明内容
为解决以上问题,本发明提供一种中文电子病历文本分析方法,包括以下步骤:
步骤S10,将真实病历文本作为原始数据,经过输入、格式变换并存储得到待处理的病历数据集;
步骤S30,利用正则处理分离数值变量和文本信息,其中,
步骤S301,构建数值变量所对应的正则表达式,并根据上下文表述确定数值信息的含义类别,搜索并结构化保存不同类别的时间信息;
步骤S302,采用自然语言处理方法对文本进行分词,并对分词结果进行词性标注,结合医学实体识别做进一步筛选,确定文本信息中医学关键词汇信息的位置及类型;
步骤S303,根据分词、词性标注和实体识别结果,分析得到筛选后的医学关键词汇和信息;
步骤S50,将文本信息转化成能够被计算机识别处理的数值向量;
步骤S60,对各病历文本之间添加相似性关系标签;
步骤S70,结合相似性学习方法、距离度量学习方法,对病历文本的标注进行学习;
步骤S80,根据标注和训练结果对新到的病历样本在病历数据集中筛选出具有相似性的病历。
优选地,还包括步骤S20,根据真实病历文本所属的病历类型分类存储,形成病历数据集,并且,对每个病历,针对病历中记载的医疗活动过程的不同将每个病历文本划分成多个段落。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810635258.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种体质健康监测系统及方法
- 下一篇:一种确定医疗数据属性数据的方法和装置