[发明专利]一种中文电子病历信息抽取的方法在审
申请号: | 201910815041.9 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110517788A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 曹梦莉;王国超 | 申请(专利权)人: | 山东健康医疗大数据有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/31 |
代理公司: | 37100 济南信达专利事务所有限公司 | 代理人: | 郗艳荣<国际申请>=<国际公布>=<进入 |
地址: | 250117 山东省济南市槐*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子病历信息 电子病历 抽取 病历数据 中文 电子健康档案 基础数据库 抽取数据 电子处方 非结构化 互联互通 获取数据 价值信息 健康医疗 临床数据 数据映射 数据整合 医疗机构 医疗数据 大数据 结构化 可用 解析 匹配 清洗 分析 入库 查询 厂商 挖掘 转换 居民 统计 建设 | ||
本发明特别涉及一种中文电子病历信息抽取的方法。该中文电子病历信息抽取的方法,通过获取数据源,并在抽取数据时进行数据映射,对数据进行解析、清洗、匹配和转换的,将不同医院不同电子病历厂商非结构化病历数据变成可用于查询、统计及分析的结构化病历数据,并将抽取结果批量入库。该中文电子病历信息抽取的方法,不仅能够促进各医疗机构之间的数据整合及互联互通,加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库,还便于利用电子病历中的临床数据进行医疗数据分析,挖掘健康医疗大数据中的价值信息。
技术领域
本发明涉及机器学习算法与数据挖掘技术领域,特别涉及一种中文电子病历信息抽取的方法。
背景技术
随着电子病历的不断普及,大量的医疗数据以电子病历的形式被不断地积累下来。其中,相当大部分的数据依然以叙述性文本的形式存在,如何抽取电子病历中的医学概念,将非结构文本结构化,已成为电子病历发展过程中亟待解决的问题。
目前,由于各医院非结构化病历系统厂商繁多,每位医护人员记录和表述习惯的不同以及病人就诊数据极难获取等各种原因,使得国内在电子病历方面的推进的步伐比较缓慢。
为了促进各医疗机构之间的数据整合及互联互通,加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库,便于利用电子病历中的临床数据进行医疗数据分析,挖掘健康医疗大数据中的价值信息,帮助医疗机构改善居民的健康水平,本发明提出了一种中文电子病历信息抽取的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的中文电子病历信息抽取的方法。
本发明是通过如下技术方案实现的:
一种中文电子病历信息抽取的方法,其特征在于:包括以下步骤:
第一步,数据源获取
读取各医院原始非结构化相关数据,包括入院记录、首次病程录、病程记录、体温记录单、体格检查、护理记录、查房记录和出院小结;
第二步,数据抽取
将不同医院、不同电子病历厂商和不同类型的非结构化病历数据进行信息抽取、转换并整合,变成可用于查询、统计及分析的结构化病历数据;
第三步,数据映射
在数据提取过程中对各类异常数据进行预处理,包括自动对各类异常值、格式异常及脏乱数据进行映射及清洗;
第四步,将数据抽取结果批量入库。
所述第一步中,使用生成器读取各医院原始非结构化相关数据,并且支持多种非结构化数据源存储格式,包括BLOB二进制大型对象和CLOB字符大型对象。
所述第二步中,单一结果字段抽取时,包括以下几种情况:
第一,对于后台数据库存储中不含XML标签的非结构化病历数据源,直接进行抽取;
第二,对于后台数据库存储中含有英文XML标签的非结构化病历数据源,抽取该字段对应的所有标签中的标签值,并用空白字符进行拼接,形成该字段最终值;
第三,对于后台数据库存储中含有中文XML标签的非结构化病历数据源,先判断标签是否存在于标签值中,若存在则直接提取标签值,若不存在则对标签内的属性值及标签值进行拼接后形成该字段。(例:体格检查)
所述第二步中,在抽取各类诊断信息及其他非单一结果的多结果字段时,先以各类标点符号、特殊字符和/或阿拉伯数字进行分割,并过滤掉不含中文字符的元素后,再分多行入库;不同非结构化病历厂商数据抽取时,参考单一结果字段抽取时的实现逻辑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东健康医疗大数据有限公司,未经山东健康医疗大数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910815041.9/2.html,转载请声明来源钻瓜专利网。