[发明专利]基于预训练语言模型的电子病历文本命名实体识别方法在审
申请号: | 201910785097.4 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110705293A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 戴亚康;戴斌;耿辰;周志勇;胡冀苏 | 申请(专利权)人: | 中国科学院苏州生物医学工程技术研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G16H10/60;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 11369 北京远大卓悦知识产权代理事务所(普通合伙) | 代理人: | 韩飞 |
地址: | 215163 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 文本 语言模型 预处理 电子病历 命名实体 训练文本 原始文本 数据处理技术 类别标签 人工标注 实体标注 实体识别 输入测试 文本特征 向量表示 序列标注 医疗信息 语义信息 语义压缩 查全率 数据集 准确率 构建 语料 输出 中文 医疗 学习 | ||
本发明属于医疗信息数据处理技术领域,具体涉及一种基于预训练语言模型的电子病历文本命名实体识别方法,包括:从公开数据集收集电子病历文本作为原始文本,并预处理;基于规范医疗术语集对经预处理的原始文本实体标注,得标注文本;将标注文本输入预训练语言模型,得字向量表示的训练文本;构建BiLSTM‑CRF序列标注模型,对训练文本进行学习,得训练的标注模型;以训练的标注模型作为实体识别模型,输入测试文本即可输出标注的类别标签序列。利用在超大规模中文语料中训练得到深层语言模型中的文本特征和语义信息,能够提供更好的语义压缩效果,避免人工标注繁琐复杂的问题,且不依赖词典和规则,提高了命名实体识别的查全率和准确率。
技术领域
本发明属于医疗信息数据处理技术领域,具体涉及一种基于预训练语言模型的电子病历文本命名实体识别方法。
背景技术
病历(case history)是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程的记录,也是对采集到的资料加以归纳、整理、综合分析并按规定的格式和要求书写的患者医疗健康档案。随着计算机及互联网技术的发展,大部分医院已实现临床病历的电子化,电子病历是利用电子设备来记录、保存、管理、传输和重现数字化的医疗记录,具有安全可靠以及方便记录、存储、共享等优点。电子病历的应用不但能够为卫生事业管理、医学诊疗与科研提供最实际、最丰富的数据资料,还将是评价医疗质量、管理水平和处理医疗纠纷的重要判定责任依据。目前电子病历多是以自然语言方式录入,然后经计算机转化为结构化数据以供日后数据分析和搜索。
自然语言处理是计算机与人工智能领域的一个交叉方向,命名实体识别(NamedEntity Recognition,简称NER)是自然语言处理的一个基本任务,旨在识别出自然语言文本中有特定意义的实体,如人名、地名、机构名、专有名词等。作为舆情分析、信息检索、查询分类、自动问答、机器翻译等自然语言处理的重要组成部分,命名实体识别结果的好坏直接影响自然语言处理的效果。
现有的命名实体识别方法一般包括三种:基于词典的方法、基于启发式规则的方法和基于机器学习的方法。基于词典的方法是先构造大规模实体词典,然后通过匹配语句和词典来实现实体识别,但该方法严重依赖于词典,无法识别未登录词,且无法识别实体配套情形,准确率不高;基于启发式规则的方法是根据实体特有的上下文特征来构建规则,然后将文本与规则进行匹配来实现实体识别,但该方法在构建规则时需要语言学背景知识,由于中文表达具有多样性,规则难以枚举且容易冲突,从而导致查全率和准确率有限;基于机器学习的方法是将命名实体识别任务形式化序列标注任务,通过预测每个字或每个词的标签,联合预测实体边界和实体类型,但该方法需要大量的人工标注。
发明内容
因此,本发明要解决的技术问题在于克服现有的命名实体识别方法准确率和查全率有限以及繁琐复杂的缺陷,从而提供一种准确率和查全率高且快速简单的基于预训练语言模型的电子病历文本命名实体识别方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于预训练语言模型的电子病历文本命名实体识别方法,包括以下步骤:
步骤1,从公开的数据集收集电子病历文本作为原始文本,对所述原始文本进行数据预处理;
步骤2,基于规范的医疗术语集对步骤1中经数据预处理的所述原始文本进行实体标注,得到标注文本;
步骤3,将所述标注文本输入预训练语言模型中,得到字向量表示的训练文本;
步骤4,构建BiLSTM-CRF序列标注模型,对所述训练文本进行训练,得到训练的标注模型;
步骤5,以所述训练的标注模型作为实体识别模型,输入测试文本即可输出标注的类别标签序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院苏州生物医学工程技术研究所,未经中国科学院苏州生物医学工程技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910785097.4/2.html,转载请声明来源钻瓜专利网。