[发明专利]一种基于中文电子病历的实体识别方法在审
申请号: | 201810304901.8 | 申请日: | 2018-04-08 |
公开(公告)号: | CN108628824A | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 闫凤麒;张贝贝;陆明名 | 申请(专利权)人: | 上海熙业信息科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G16H10/60;G16H50/70 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 201802 上海市嘉定区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子病历 实体识别 中文 文本 词频 字频 语料库标注 单字 人工标注 医学词典 章节信息 复杂度 核心词 语料库 准确率 构建 聚类 向量 标注 医疗 统计 | ||
本发明提供了一种基于中文电子病历的实体识别方法,涉及医疗实体识别技术领域。针对目前国内缺少公开中文电子病历标注语料库的缺陷,本发明通过构建整理医学词典,提出了一种半自动语料库标注方法,节省了人工标注的复杂度。其次目前基于特征的电子病历实体识别方法大部分都是针对普通文本或者一般的电子病历文本,没有考虑到中文电子病历的特有特征。本发明提取的特征除了一般文本具有的基本特征外,还提取了中文电子病历特有的章节信息特征,通过对收集到的词典进行单字和词切分后统计字频和词频得到核心词特征加入扩展特征中,并且通过对词向量进行聚类把词与词之间的联系也加入了扩展特征,有效的提高了中文电子病历的实体识别准确率。
技术领域
本发明涉及自然语言处理领域,尤其涉及电子病历的命名实体识别。
背景技术
最早的电子病历信息抽取通常采用词典与规则相结合的方法。而随着电子病历标注语料的构建,基于机器方法的电子病历信息抽取研究逐渐开展起来。美国国家集成生物与临床信息学研究中心I2B2在2010年引入了英文电子病历的信息抽取任务,该评测包含3个子任务,分别是医疗问题、检查、治疗等实体的识别、实体修饰识别以及实体关系抽取,并提供了349份人工标注的电子病历和827份未标注电子病历。为英文电子病历命名实体识别及关系识别打下了坚实的基础。
对于电子病历命名实体研究,Dingcheng Li等人分别采用了条件随机域(CRF)和支持向量机(SVM)两种方法,并结合SNOMED-CT词典进行电子病历命名实体识别,其中CRF模型达到了较好的效果。Min Jiang等人引入一体化医学语言系统(UMLS)及三个自然语言处理系统(MedLEE,DST,Knowledge Map)的结果作为特征,系统的评估了采用不同特征及机器学习算法的识别效果,并提出了一个集成规则与机器学习算法的实体抽取系统。Siddhartha Jonnalagadd等人则是在基本特征的基础上,增加分布式语义特征,采用CRF模型对电子病历中的医疗问题、检查、治疗进行识别。
中文电子病历命名实体研究仍处于起步阶段,叶枫等人基于CRF算法,对中文电子病历中的疾病、临床症状、手术操作3类命名实体进行智能识别,构建了覆盖25个疾病大类的250份病历。该研究是对中文电子病历命名实体识别研究的首次尝试,但该研究对实体类型定义不能够覆盖所有的医疗实体,语料规模也较小。Lei Jianbo等人共选取了包含病程记录和出院小结在内的800份病历文本,以此构建了命名实体标注语料,他们共定义了四种医疗实体:医疗问题、检查、药物、手术,对比了CRF、SVM、ME、SSVM四种算法的效果,其中SSVM模型的表现最好,病程记录训练出的模型的F值可以达到93.53%,而出院小结的F值则为90.01%。Xu Yan等人构建了包含336份出院小结在内的标注语料,主要针对医疗问题、检查、治疗和药物四类实体,并提出了基于对分解的分词及命名实体识别联合模型。
发明内容
现有研究主要针对英文电子病历,在中文电子病历实体识别中,由于缺少公开中文电子病历标注语料库以及词典资源,使得其研究缓慢,同时一般的基于特征的实体识别方法都是对词进行直接分析,而没有深入分析到词向量,也忽略了实体间的一定相似度可以用聚类方法求得这一特点。
电子病历实体识别是智能医疗推进的一项重要任务,将临床信息中的医疗信息提出来有助于医疗知识图谱的构建以及医疗自动问答的推进。目前的电子病历实体识别主要是针对英文电子病历的,中文研究由于缺少公开中文电子病历标注语料库以及词典资源,一般基于特征的方法中没有充分考虑到中文电子病历的特有特点。针对这些问题,本发明在进行一定规模的中文电子病历语料库标注后,给出了一种结合词向量和聚类从多方面进行特征扩展的中文电子病历实体识别方法。
为了实现上述目的,本发明给出的技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海熙业信息科技有限公司,未经上海熙业信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810304901.8/2.html,转载请声明来源钻瓜专利网。