[发明专利]一种医疗领域中文命名实体识别方法在审
申请号: | 202210268640.5 | 申请日: | 2022-03-18 |
公开(公告)号: | CN114638214A | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 陈洪辉;江苗;王梦如;蔡飞;舒振;宋城宇;张鑫;陈翀昊;邵太华;郑建明 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/295;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医疗 领域 中文 命名 实体 识别 方法 | ||
本发明公开了一种医疗领域中文命名实体识别方法,所述方法使用BBCPR模型来识别医疗领域中文命名实体,所述BBCPR模型由单词嵌入层、BERT嵌入层、POS融合层、BiLSTM层和CRF层组成,所述单词嵌入层将给定句子转换为词嵌入,输入至BERT嵌入层;所述BERT嵌入层采用MCBERT编码器,得到BERT输出嵌入;所述POS融合层将BERT输出嵌入和POS嵌入连接起来,得到融合嵌入;BiLSTM层对融合嵌入进行编码,得到输入序列的最终隐含表示;所述CRF层对BiLSTM层的输出进行解码,得到标签序列并输出。该方法可以明确地学习单词边界信息,同时可以解决过拟合问题并增强模型在小数据上的稳健性。
技术领域
本发明属于人工智能及数字医疗技术领域,具体涉及一种医疗领域中文命名实体识别方法。
背景技术
命名实体识别(NER)是自然语言处理(NLP)的一项核心任务,旨在从非结构化文本中识别潜在实体及其类别。作为许多NLP下游任务(如关系提取、信息检索)的重要组成部分,NER一直是NLP界的一个热点问题,并引起了很多人的关注。总的来说,以前的工作大多是针对英语的NER任务,并通过整合字符级特征取得了很好的性能。
与英语的NER相比,东亚语言(如中文)通常缺乏明确的词的边界,并且具有复杂的构成形式,这对NER模型来说更具挑战性。例如,目前中文NER任务中表现最好的模型(SOTAs)的性能远远低于英语NER任务的SOTAs,在F1评价指标方面有近10%的差距。此外,最近的研究更加关注特定领域的NER,例如医学,它是复杂的,需要外部领域的专业知识。
医学领域的中文命名实体识别(CNER)被认为是字符级的序列标签问题,而英文则是单词级的。最近,深度学习方法被广泛用于CNER任务,因为它们在从海量数据中自动提取特征方面具有出色的能力。例如,以前的工作通常利用双向长短时记忆(BiLSTM)网络来捕捉序列信息,并取得相当的结果。此外,由于语言模型在提取上下文信息方面的超强能力,基于转化器的模型(如BERT)正成为变成了CNER的一个新范式。
特别是在医学领域,外部的专业知识有利于模型理解技术术语和识别词的边界,这促使最近的研究在传统的BiLSTM-CRF或BERT架构的基础上加入字典知识。然而,高质量的字典建设通常需要大量的时间和专业知识,这是非常昂贵和耗费劳动力的。此外,这些基于字典的方法可能会降低NER模型的通用性和稳健性。同时,由于隐私、道德和高度专业化的限制,带注释的中文医学NER数据很难获得,而且通常规模很小。规模小,容易导致模型的过拟合问题。
发明内容
本发明为了解决上述问题,提出了一种使用词性信息和新正则化方法来改进医疗领域中文命名实体识别方法。该方法使用BBCPR(BERT-BiLSTM-CRF with POS andRegularization)模型来识别医疗领域中文命名实体,所述BBCPR模型利用POS(语篇)融合层来纳入外部语法知识,同时引入了一个新颖的READ(REgularization and Adversarialtraining and Dropout)方法来提高模型的鲁棒性。所述BBCPR模型由单词嵌入层、BERT嵌入层、POS融合层、BiLSTM层和CRF层组成。
所述单词嵌入层将给定句子转换为词嵌入E,并输入至BERT嵌入层。
所述BERT嵌入层采用MCBERT编码器,得到BERT输出嵌入,并作为POS融合层输入。
所述POS融合层将BERT输出嵌入和POS嵌入连接起来,得到融合嵌入,所述POS嵌入由给定句子的POS标签并经过POS嵌入层得到。
所述BiLSTM层对融合嵌入进行编码,得到输入序列的最终隐含表示。
所述CRF层对BiLSTM层的输出进行解码,得到标签序列并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210268640.5/2.html,转载请声明来源钻瓜专利网。