[发明专利]一种基于生物医学领域预训练模型的命名实体识别方法在审
申请号: | 202111524520.9 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114282539A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 邹家辉 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N3/04 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生物医学 领域 训练 模型 命名 实体 识别 方法 | ||
1.一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,包括以下步骤:
对于输入的文本的每个词汇对应预训练结果中的词表进行分词处理,通过BioBERT的Embedding层赋予初始权重;
对于超过max_batch_size的句子进行截断;连接所有的句子对,对于句首使用[CLS]标签,句尾使用[SEP]标签;
通过在PubMed和PMC文本下预训练完成的BioBERT模型进行第一特征提取;
将BioBERT结构的输出再次通过BiLSTM网络模型进行第二特征提取;
使用CRF网络对第二特征提取得到的特征进行识别。
2.根据权利要求1所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,BioBERT模型进行第一特征提取过程中,利用自注意力机制提取权重,在提取权重过程中随机遮住15%的单词,遮住的15%的单词中的80%用masked token代替,10%用随机一个词来代替,10%保持这个词不变。
3.根据权利要求2所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,BioBERT模型进行第一特征提取过程中,利用自注意力机制提取权重表示为:
其中,Attention(Q,K,V)为自注意力机制权重;Q、K、V分别为输入的词向量分别与三个不同的权值矩阵相乘得到的加权词向量;dk为输入向量维度。
4.根据权利要求1所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,BiLSTM网络模型包括多个级联的LSTM神经元,单个LSTM神经元包括遗忘门、记忆门以及输出门,根据输入的文本以及上一级LSTM神经元的输出提取特征,该过程包括:
ft=σ(Wfxxt+Wfhht-1+bf),
it=σ(Wixxt+Wihht-1+bi),
ot=σ(Woxxt+Wohht-1+bo),
其中,σ是sigmoid函数,ht-1是指前一个LSTM单元输出的隐藏层状态,xt是指当前输入到LSTM单元的词嵌入向量,ft指遗忘门,it表示记忆门,为用于控制记忆门输入的信息比例;Wix为记忆门输入的计算权值;Wih为记忆门隐藏层的计算权值;bi为计算门计算偏置;Wfx为遗忘门输入的计算权值;Wfh为遗忘门隐藏层的计算权值;bf为遗忘门计算偏置;Wox为输出门输入的计算权值;Woh为输出门隐藏层的计算权值;bo为输出门的计算偏置。。
5.根据权利要求4所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,第t个神经LSTM单元LSTM单元ht表示为:
其中,为用于控制记忆门输入的信息比例。
6.根据权利要求4或5所述的一种基于生物医学领域预训练模型的命名实体识别方法,其特征在于,用于控制记忆门输入的信息比例表示为:
其中,Wcx为记忆门对输入信息比例控制计算的权值;Wch为记忆门对隐藏层输入比例控制计算的权值;bc为记忆门比例控制计算的偏置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111524520.9/1.html,转载请声明来源钻瓜专利网。