[发明专利]一种医疗领域中文命名实体识别方法在审
申请号: | 202210268640.5 | 申请日: | 2022-03-18 |
公开(公告)号: | CN114638214A | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 陈洪辉;江苗;王梦如;蔡飞;舒振;宋城宇;张鑫;陈翀昊;邵太华;郑建明 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/295;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医疗 领域 中文 命名 实体 识别 方法 | ||
1.一种医疗领域中文命名实体识别方法,其特征在于,所述方法使用BBCPR模型来识别医疗领域中文命名实体,所述BBCPR模型由单词嵌入层、BERT嵌入层、POS融合层、BiLSTM层和CRF层组成,
所述单词嵌入层将给定句子转换为词嵌入E,并输入至BERT嵌入层;
所述BERT嵌入层采用MCBERT编码器,得到BERT输出嵌入,并作为POS融合层输入;
所述POS融合层将BERT输出嵌入和POS嵌入连接起来,得到融合嵌入,所述POS嵌入由给定句子的POS标签并经过POS嵌入层得到;
所述BiLSTM层对融合嵌入进行编码,得到输入序列的最终隐含表示;
所述CRF层对BiLSTM层的输出进行解码,得到标签序列并输出;
所述BBCPR模型使用带有对抗性训练和放弃的正则化模块,所述正则化模块使用FGSM对词嵌入E产生的对抗性扰动生成对抗性词嵌入E′,词嵌入E和对抗性词嵌入E′分别通过Dropout机制产生两个不同的子模块,并输出两个不同的模型预测分布,然后,最小化两个预测分布之间的双向KL散度分歧来减少两个子模型的预测差异。
2.根据权利要求1所述的识别方法,其特征在于,所述最小化两个预测分布之间的双向KL散度分歧来减少两个子模型的预测差异,具体为:
训练目标是使数据(X,Y)的损失函数最小化:
其中,λ是系数权重,P(Y∣X)为词嵌入E的概率分布,P′(Y∣X)为对抗性词汇嵌入E′的概率分布,DKL为KL散度,X为预测句子,Y为BBCPR模型输出的标签序列。
3.根据权利要求1所述的识别方法,其特征在于,所述POS融合层将BERT输出嵌入和POS嵌入连接起来,具体为:其中vi为BERT输出嵌入和POS嵌入的串联,hi为BERT的输出嵌入,pi为句子中第i个标记的POS嵌入。
4.根据权利要求3所述的识别方法,其特征在于,所述给定句子通过LAC工具来获得POS标签,将POS标签送入至POS嵌入层,得到POS嵌入。
5.根据权利要求1-4所述的识别方法,其特征在于,使用BIO标签预测句子中的每个标记。
6.根据权利要求1-4所述的识别方法,其特征在于,MCBERT包括一个由L个相同的层组成的堆栈,每层包含两个子层,其中第一个子层是一个多头自我注意机制,第二个子层是一个完全连接的前馈神经网络,两个子层通过残差连接和层归一化依次连接。
7.根据权利要求1-4所述的识别方法,其特征在于,BiLSTM的计算过程为:
其中和分别表示前向LSTM和后向LSTM。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210268640.5/1.html,转载请声明来源钻瓜专利网。