[发明专利]基于预训练语言模型的电子病历文本命名实体识别方法在审

申请号：	201910785097.4	申请日：	2019-08-23
公开（公告）号：	CN110705293A	公开（公告）日：	2020-01-17
发明（设计）人：	戴亚康;戴斌;耿辰;周志勇;胡冀苏	申请（专利权）人：	中国科学院苏州生物医学工程技术研究所
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G16H10/60;G06K9/62;G06N3/04;G06N3/08
代理公司：	11369 北京远大卓悦知识产权代理事务所(普通合伙)	代理人：	韩飞
地址：	215163 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标注文本语言模型预处理电子病历命名实体训练文本原始文本数据处理技术类别标签人工标注实体标注实体识别输入测试文本特征向量表示序列标注医疗信息语义信息语义压缩查全率数据集准确率构建语料输出中文医疗学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，包括以下步骤：

步骤1，从公开的数据集收集电子病历文本作为原始文本，对所述原始文本进行数据预处理；

步骤2，基于规范的医疗术语集对步骤1中经数据预处理的所述原始文本进行实体标注，得到标注文本；

步骤3，将所述标注文本输入预训练语言模型中，得到字向量表示的训练文本；

步骤4，构建BiLSTM-CRF序列标注模型，对所述训练文本进行训练，得到训练的标注模型；

步骤5，以所述训练的标注模型作为实体识别模型，输入测试文本即可输出标注的类别标签序列。

2.根据权利要求1所述的基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，步骤1中，统计数据集中所有所述原始文本中的字，去除停用字、无用符号，并生成字典文件。

3.根据权利要求1或2所述的基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，步骤2中，基于SNOMED CT医疗术语集并采用BIO标注模式标注出步骤1中经数据预处理的所述原始文本中出现的疾病和诊断、检查、检验、手术、药物、解剖部位六个实体。

4.根据权利要求3所述的基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，步骤3中，采用ERNIE预训练语言模型。

5.根据权利要求4所述的基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，步骤3中，采用半监督的并行方式对ERNIE预训练语言模型进行训练。

6.根据权利要求5所述的基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，步骤4中，所述BiLSTM-CRF序列标注模型包括look-up层、双向LSTM层和CRF层。

7.根据权利要求6所述的基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，步骤4中，以所述训练文本的字向量输入至所述BiLSTM-CRF序列标注模型中并迭代训练。

8.根据权利要求7所述的基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，步骤4中，通过构建损失函数计算损失值以确定迭代训练次数，直至所述损失值小于设定阈值。

9.根据权利要求8所述的基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，步骤4中，将所述训练文本的类别标签序列和带标签数据输入至所述损失函数中以计算所述损失值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院苏州生物医学工程技术研究所，未经中国科学院苏州生物医学工程技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910785097.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载