[发明专利]基于预训练语言模型的电子病历文本命名实体识别方法在审

申请号：	201910785097.4	申请日：	2019-08-23
公开（公告）号：	CN110705293A	公开（公告）日：	2020-01-17
发明（设计）人：	戴亚康;戴斌;耿辰;周志勇;胡冀苏	申请（专利权）人：	中国科学院苏州生物医学工程技术研究所
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G16H10/60;G06K9/62;G06N3/04;G06N3/08
代理公司：	11369 北京远大卓悦知识产权代理事务所(普通合伙)	代理人：	韩飞
地址：	215163 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于医疗信息数据处理技术领域，具体涉及一种基于预训练语言模型的电子病历文本命名实体识别方法，包括：从公开数据集收集电子病历文本作为原始文本，并预处理；基于规范医疗术语集对经预处理的原始文本实体标注，得标注文本；将标注文本输入预训练语言模型，得字向量表示的训练文本；构建BiLSTM‑CRF序列标注模型，对训练文本进行学习，得训练的标注模型；以训练的标注模型作为实体识别模型，输入测试文本即可输出标注的类别标签序列。利用在超大规模中文语料中训练得到深层语言模型中的文本特征和语义信息，能够提供更好的语义压缩效果，避免人工标注繁琐复杂的问题，且不依赖词典和规则，提高了命名实体识别的查全率和准确率。
搜索关键词：	标注文本语言模型预处理电子病历命名实体训练文本原始文本数据处理技术类别标签人工标注实体标注实体识别输入测试文本特征向量表示序列标注医疗信息语义信息语义压缩查全率数据集准确率构建语料输出中文医疗学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于预训练语言模型的电子病历文本命名实体识别方法，其特征在于，包括以下步骤：/n步骤1，从公开的数据集收集电子病历文本作为原始文本，对所述原始文本进行数据预处理；/n步骤2，基于规范的医疗术语集对步骤1中经数据预处理的所述原始文本进行实体标注，得到标注文本；/n步骤3，将所述标注文本输入预训练语言模型中，得到字向量表示的训练文本；/n步骤4，构建BiLSTM-CRF序列标注模型，对所述训练文本进行训练，得到训练的标注模型；/n步骤5，以所述训练的标注模型作为实体识别模型，输入测试文本即可输出标注的类别标签序列。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院苏州生物医学工程技术研究所，未经中国科学院苏州生物医学工程技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910785097.4/，转载请声明来源钻瓜专利网。

上一篇：一种基于知识库和深度学习的实体名称提取方法
下一篇：命名实体识别模型训练方法、命名实体识别方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于预训练语言模型的电子病历文本命名实体识别方法在审

专利文献下载