[发明专利]一种基于医疗词典的医疗命名实体识别方法在审
申请号: | 201910834690.3 | 申请日: | 2019-09-05 |
公开(公告)号: | CN110569506A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 齐涛;黄永峰 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11201 北京清亦华知识产权代理事务所(普通合伙) | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 局部上下文 损失函数 文本 命名实体 实体识别 文本字符 建模 预处理 全局上下文 加权相加 局部信息 全局信息 生物信息 实体分类 有效地 池化 优化 | ||
本发明提出一种基于医疗词典的医疗命名实体识别方法,属于命名体识别和生物信息领域。该方法首先对待识别的医疗文本和医疗词典预处理,分别对医疗文本和医疗词典的医疗实体进行局部信息建模,得到医疗文本字符的局部上下文表示和医疗实体字符的局部上下文表示;对医疗文本全局信息进行建模,得到医疗文本字符的全局上下文表示,获取医疗实体识别损失函数;对医疗实体字符的局部上下文表示进行池化得到医疗实体的表示,获取医疗实体分类损失函数;将两个损失函数加权相加并优化,得到最终的医疗文本的医疗命名实体识别结果。本发明有效地提升了医疗实体识别的性能,同时能很好地识别普通实体和罕见实体。
技术领域
本发明涉及命名体识别和生物信息领域,具体涉及一种基于医疗词典的医疗命名实体识别方法,用于从医疗文本中抽取医疗实体。
背景技术
医疗命名实体识别旨在从医疗文本中提取医疗实体,并对其类别进行分类,例如药物,手术,症状,疾病和身体部位。例如,给出一个句子“五月前患者出现下肢水肿”,医疗命名实体识别的目标是从这句话中提取“下肢”和“水肿”,并将它们分别分类为身体部位实体和疾病实体。医疗命名实体识别是智能医疗保健中的一项重要任务,也是许多下游任务的重要先决条件,例如药物重新定位,实体链接和临床决策支持系统。因此,近年来医疗命名实体识别越来越受到关注。
然而,医疗命名实体识别的标记数据通常是小尺寸的,并且在医疗文本中存在许多难以被有限标记数据覆盖的稀有实体。因此,现有的命名实体识别方法识别医疗命名实体是非常具有挑战性的。幸运的是,许多大型医疗词典都是现成的,可以涵盖许多医疗命名实体,包括普通医疗实体和罕见医疗实体。因此,这些词典有可能帮助改善医疗命名实体识别的表现。
近年来,深度学习方法已被广泛用于命名实体识别。大多数这些方法将命名实体识别建模为序列标记问题。例如,Lample等人提出了一种用于英文命名实体识别的LSTM-CRF 架构,其中长短时记忆网络(LSTM)用于学习上下文单词表示,条件随机场(CRF)用于解码单词标签。Chiu等人提出了一种用于英文命名实体识别的CNN-LSTM-CRF架构,它与LSTM-CRF非常相似,只是他们使用卷积神经网络(CNN)来利用单词中的字母学习单词的表示。由于中文文本中没有自然分隔符来分隔短语,因此许多中文命名实体识别方法将此任务建模为字符级序列标记问题。例如,董等人提出了一个字符级LSTM-CRF框架。这些现有的命名实体识别方法通常依赖于大量标记数据来训练神经网络模型,然而标注数据通常是非常昂贵且耗时的。此外,这些方法通常难以识别在训练数据中很少或不出现的实体。然而,医疗命名实体识别的标记数据通常很少。此外,医疗文本中有许多罕见的实体,很难被有限的标记数据所覆盖。因此,现有的命名实体识别方法识别医疗实体是非常具有挑战性的,并且它们在医疗命名实体识别中的表现通常是不令人满意的。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于医疗词典的医疗命名实体识别方法。该方法有效地提升了医疗实体识别的性能,同时能很好地识别普通实体和罕见实体。
本发明提出一种基于医疗词典的医疗命名实体识别方法,其特征在于,包括以下步骤:
1)对待识别的医疗文本进行预处理,将所述文本进行分句并转换为对应的字符序列;对医疗词典进行预处理,将词典中的医疗实体转换为对应的字符序列;
2)对步骤1)预处理完毕的的医疗文本进行局部信息建模,得到医疗文本字符的局部上下文表示;
3)对步骤1)预处理完毕医疗词典的医疗实体进行局部信息建模,得到医疗实体字符的局部上下文表示;
4)对预处理完毕的医疗文本全局信息进行建模,得到医疗文本字符的全局上下文表示;
5)对医疗实体字符的局部上下文表示进行池化得到医疗实体的表示;
6)基于医疗文本字符的全局上下文表示对医疗文本各字符的标签进行解码,得到预测的医疗命名实体以及医疗实体识别的损失函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910834690.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本输入方法及装置
- 下一篇:语义识别方法、装置、设备及存储介质