[发明专利]基于GPT-2模型的中文电子病历实体识别方法在审

申请号：	201910946630.0	申请日：	2019-10-06
公开（公告）号：	CN110674641A	公开（公告）日：	2020-01-10
发明（设计）人：	朱国胜;吴善超;刘飞鸿;祁小云;吴梦宇	申请（专利权）人：	武汉鸿名科技有限公司;湖北大学;明理医疗科技(武汉)有限公司;赛尔网络有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30
代理公司：	42220 武汉帅丞知识产权代理有限公司	代理人：	刘丹;朱必武
地址：	430000 湖北省武汉市东湖新技术开发区***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于GPT‑2模型的中文电子病历实体识别方法，利用GPT‑2预训练模型提取电子病例的特征向量，再从CRF模型作为出口得到识别概率，最终得到中文电子病例的命名实体，所述方法包括如下步骤：1)将中文电子病历的数据分为训练集和测试集两个部分，并对两个部分的数据进行统一标注，标注后的数据包含原始中文电子病历和实体标注；2)以GPT‑2预训练模型为基础，引入CRF模型，建立基于GPT2‑CRF的中文电子病历实体识别模型，使用训练集数据训练，得到训练后的中文电子病历实体识别模型；3)将测试集数据输入中文电子病历实体识别模型中，通过评估分数得到实体识别的最优标注序列。该方法不受文本形式限制，容易实现，并且开发和运行成本低。
搜索关键词：	电子病历实体识别中文标注训练模型测试集数据训练集数据命名实体评估分数实体标注输入中文数据包含特征向量文本形式运行成本测试集训练集概率引入出口开发统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于GPT-2模型的中文电子病历实体识别方法，其特征在于，利用GPT-2预训练模型提取电子病例的特征向量，再从CRF模型作为出口得到识别概率，最终得到中文电子病例的命名实体，所述方法包括如下步骤：/n1)将中文电子病历的数据分为训练集和测试集两个部分，并对两个部分的数据进行统一标注，标注后的数据包含原始中文电子病历和实体标注；/n1.1)设定标签的实体类别有：身体部位，症状/体征，检查/检验和疾病/诊断；/n1.2)设立多个标注小组，分别对所述训练集和测试集的所有病历依据以上实体类别人工标注得到实验的训练集和测试集，标注结果第一列为实体词，第二列为该词在病历中的开始位置，第三列为该词在病历中的结束位置，最后一列为实体类别；/n1.3)中文电子病历的原始数据为x＝(x

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉鸿名科技有限公司;湖北大学;明理医疗科技(武汉)有限公司;赛尔网络有限公司，未经武汉鸿名科技有限公司;湖北大学;明理医疗科技(武汉)有限公司;赛尔网络有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910946630.0/，转载请声明来源钻瓜专利网。

上一篇：中文姓名获取方法、中文姓名提取模型的训练方法及装置
下一篇：一种用于含噪稀疏文本的语义关系抽取方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于GPT-2模型的中文电子病历实体识别方法在审

专利文献下载