[发明专利]一种基于生物医学领域预训练模型的命名实体识别方法在审
申请号: | 202111524520.9 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114282539A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 邹家辉 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N3/04 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生物医学 领域 训练 模型 命名 实体 识别 方法 | ||
本发明涉及人工智能、自然语言处理,特别涉及一种基于生物医学领域预训练模型的命名实体识别方法,包括对于输入的文本的每个词汇对应预训练结果中的词表进行分词处理,通过BioBERT的Embedding层赋予初始权重;对于超过max_batch_size的句子进行截断;连接所有的句子对,对于句首使用[CLS]标签,句尾使用[SEP]标签;通过在PubMed和PMC文本下预训练完成的BioBERT模型进行第一特征提取;将BioBERT结构的输出再次通过BiLSTM网络模型进行第二特征提取;使用CRF网络对第二特征提取得到的特征进行识别;本发明能够更精确识别生物医学领域预的实体。
技术领域
本发明涉及人工智能、自然语言处理,特别涉及一种基于生物医学领域预训练模型的命名实体识别方法。
背景技术
随着生物医学文献的指数级增长,与此同时越来越多的蛋白质,基因,疾病等生物医学实体被命名,特殊性,专业性比较强且种类繁多,数据显示:截止2019年1月,著名生物医学数据库PubMED就有2900万篇文章,同时研究人员需要从这些文本中提取关键有用信息,人工收集效率低下,因此生物医学文本信息抽取就应运而生,命名实体识别技术属于它的关键字任务,同时也是后续关系提取的子任务,一般应用于普通文本例如新闻类的命名实体识别方案直接应用在生物医学领域的性能降低超过10%,因此具有很大的意义和挑战性。本专利实例就是对生物医学文本中的基因,疾病,蛋白质等实体进行更加有效地识别。
早期这个问题的解决方案是基于词典和规则的方法,构建词典或者规则进行文本的匹配,核心思想是关注规则,不过差不多已经淘汰了。到后来的一些机器学习方法,例如:支持向量机模型,隐马尔可夫模型以及条件随机场模型等,核心思想是关注概率,到目前比较主流比较常用的神经网络方法(目前应用最多识别效果整体最好的模型ELMO,Bert,openAI-gpt以及Bert模型的一些变种,他们的共同点就是神经元都是以self-attention为核心的Transformer架构,能够结合全文表征当前所处理的token)。这些方法各有优劣,因此灵活的融合多种模型可以得到更好的实体识别性能。当前针对该问题综合性能最佳的BioBERT模型(一种基于BERT在海量生物医学文本中无监督学习后的预训练模型),由于其核心架构Transformer全连接层的复杂计算而导致弱化了文本中各个token的位置信息,所以该方法仍然有进一步提升的空间。
发明内容
为了有效的对生物医学文本中的疾病,蛋白质,基因等相关实体做出识别,本发明提出一种基于生物医学领域预训练模型的命名实体识别方法,具体包括以下步骤:
对于输入的文本的每个词汇对应预训练结果中的词表进行分词处理,通过BioBERT的Embedding层赋予初始权重;
对于超过max_batch_size的句子进行截断;连接所有的句子对,对于句首使用[CLS]标签,句尾使用[SEP]标签;
通过在PubMed和PMC文本下预训练完成的BioBERT模型进行第一特征提取;
将BioBERT结构的输出再次通过BiLSTM网络模型进行第二特征提取;
使用CRF网络对第二特征提取得到的特征进行识别。
进一步的,BioBERT模型进行第一特征提取过程中,利用自注意力机制提取权重,在提取权重过程中随机遮住15%的单词,遮住的15%的单词中的80%用masked token代替,10%用随机一个词来代替,10%保持这个词不变。
进一步的,BioBERT模型进行第一特征提取过程中,利用自注意力机制提取权重表示为:
其中,Attention(Q,K,V)为自注意力机制权重;Q、K、V分别为输入的词向量分别与三个不同的权值矩阵相乘得到的加权词向量;dk为输入向量维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111524520.9/2.html,转载请声明来源钻瓜专利网。