[发明专利]一种数据驱动的从电子病历中提取信息的方法在审
申请号: | 202110859239.4 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113628705A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 韦嘉;叶翔赟 | 申请(专利权)人: | 上海基绪康生物科技有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F16/332;G06F16/35;G06F16/36 |
代理公司: | 武汉智新达知识产权代理事务所(特殊普通合伙) 42272 | 代理人: | 陈文森 |
地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 驱动 电子 病历 提取 信息 方法 | ||
本发明涉及一种数据驱动的从电子病历中提取信息的方法,包括以下步骤:S1、对收集的核心词汇库进行有效扩充,构建一个全面的跨领域的词汇库;S2、利用词汇库去电子病历中提取包含时间‑医学事件‑描述这个三元组的结构化信息。该方法采用数据驱动的富集模式扩充了用于自动识别的词汇库,使其在相关医学术语的识别上显著优于同时期最流行的监督学习模型,同时,采用用归一化谷歌距离(NGD)为特征的支持向量机(SVM)作为匹配模型,在事件及其相应描述的关联上,它同样比其它可行的方案都要优越,此外,几乎不需手动注释,易实现规模化提取,且在处理大量数据面对增加的变异和噪音时,也有很好的稳定性。
技术领域
本发明涉及电子病历信息提取技术领域,特别涉及一种数据驱动的从电子病历中提取信息的方法。
背景技术
电子病历(Electronic Medical Records,EMRs)中记录着许多有用信息,比如,关于疾病的描述、检查结果、具体的治疗方案和疗效等,这些信息将有助于医学专家们更清楚得地了解疾病的发展进程,从而找到更有效的治疗方法或者发掘某些医学需求的不足,然后从非结构化的电子病历文本中自动提取这些有用信息是相当错综复杂的过程,电子病历中的描述都是医师在对病人诊疗过程中记录下来的,因此具有简洁和个性化的特点,尽管病历记录有相应的实用书写标准,但由于医师们书写习惯或者先验知识的不同,记录的形式也会显著不同有时甚至可能发生错误记录。
此外,中文相对英文在语言复杂性上是显著增加的,而中国的医师们还经历过传统中医(TCM)的训练,书写习惯甚至可能更接近古文,想从中文电子病历中有效地提取信息,将面临更大的挑战,因此,现有的用于从新闻或者一般文学作品中提取信息的常用方法都不适用于从中文电子病历中提取信息,用大量经人工注释的中文电子病历去训练一个新的模型用来识别的确是一个可行的办法,但是这需要具有专业知识的人员花大量的时间去注释才能实现,显然是不易操作和推广的,故提出一种数据驱动的从电子病历中提取信息的方法。
发明内容
本发明针对现有技术中存在的技术问题,提供一种数据驱动的从电子病历中提取信息的方法,该数据驱动的从电子病历中提取信息的方法可自动从非结构化的电子病历中识别有用信息并且将这些自由文本转换为包含时间-事件-描述三元组的结构化文本。
本发明解决上述技术问题的技术方案如下:一种数据驱动的从电子病历中提取信息的方法,包括以下步骤:
S1、对收集的核心词汇库进行有效扩充,构建一个全面的跨领域的词汇库;
S2、利用词汇库去电子病历中提取包含时间-医学事件-描述这个三元组的结构化信息。
在上述技术方案的基础上,本发明还做了如下改进。
进一步,构建的词汇库由核心词汇库及其扩充部分组成,其包含六种类型的医学事件:疾病、症状、药物、身体部位名称、疗程信息以及临床检测信息。
进一步,对核心词汇库进行扩充的方法包括识别模式迭代法、动态术语组合法和方向型或者扩展型前缀法。
进一步,所述识别模式迭代法包括以下步骤:
1)从核心词汇库开始,在每一次的非监督迭代过程中,首先对整个电子病历主体进行扫描并鉴别出当前词汇库中还未被识别或者未包含被的词汇,然后选出其中比较可信的添加到当前词汇库中;
2)用这些词汇构建一系列候选的新识别模式,最后再从中筛选出较为可靠的模式用于下一次迭代中新词汇的搜索,如此循环直到没有新词汇被鉴别到为止。
进一步,所述动态术语组合法识别的不是一个个单独的词汇,而是词汇的组合,组合中每个独立的词汇可能都已经被包含在核心词汇库里了,但是它们组合后的词汇组往往没有被核心词汇库收录,这样的词汇组很多都以身体的某个部位作为前缀。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海基绪康生物科技有限公司,未经上海基绪康生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110859239.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空调系统及其控制方法
- 下一篇:一种南繁水稻直播栽培方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置