[发明专利]一种基于语境化胶囊网络的生物医学实体识别方法有效
申请号: | 201910982694.6 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110807327B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 陈鹏;徐博;夏锋;王悦 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08;G16B50/10 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语境 胶囊 网络 生物医学 实体 识别 方法 | ||
本发明属于计算机自然语言处理技术领域,提供了一种基于语境化胶囊网络的生物医学实体识别方法,包括以下步骤:S1:获取生物医学相关语料;S2:对获取的相关文本进行数据预处理操作;S3:构建语境化胶囊网络的生物医学实体识别模型,并在训练集上进行训练;S4:利用训练好的语境化胶囊网络模型对未知的生物医学文本进行命名实体识别;S5:后处理操作,即在语境化胶囊网络模型预测的结果基础上设置所有的非法标签为“O”,进一步提高实体识别性能。本发明提出的方法实现了自动识别生物医学文献中的命名实体,较人工识别方式有更高的识别准确率和更少的时间开销,且有更强的泛化能力。
技术领域
本发明属于计算机自然语言处理技术领域,具体为一种基于语境化胶囊网络的生物医学实体识别方法。
背景知识
命名实体识别是信息抽取的第一步,此任务旨在识别文档中具有特定意义的实体,比如人名、地名和机构名等专有名词。在生物医学领域,生物医学实体识别是指自动识别诸如基因、蛋白质、疾病和化学物之类的实体以辅助生物医学专家从海量生物医学文献中提取有价值的信息。作为生物医学信息抽取的核心任务,生物医学命名实体识别一直受到研究者们的普遍关注。目前生物医学命名实体识别任务比较流行的方法为基于统计机器学习的方法和基于深度学习的方法。基于统计的机器学习方法严重依赖于手动制作的特征,这是费时的且代价高昂。此外,语料的规模也影响该方法的预测性能,这对资源有限的生物医学命名实体识别语料而言是一大挑战。基于深度学习的方法展现了最先进的性能,然而它们不可避免的局限于编码更加丰富的序列结构信息,如缩写、多义词或单词、标点和数字的混合等。本发明提出一种基于语境化胶囊网络的生物医学实体识别方法,该方法生物医学数据集上取得了先进的实验结果。
发明内容
本发明的目的主要针对上述现有技术存在的缺陷,利用胶囊网络能更好的建模复杂数据对象之间重要空间层次的能力,提出了一种基于语境化胶囊网络的生物医学实体识别方法,解决了手动提取特征难度大、识别效果较差等问题。
本发明的技术方案:
一种基于语境化胶囊网络的生物医学实体识别方法,步骤如下:
S1:获取生物医学相关语料;
S2:对获取的相关文本进行数据预处理操作;
S3:构建语境化胶囊网络的生物医学实体识别模型,该模型由特征表示层、主胶囊层和实体胶囊层3部分构成:
S3.1特征表示层:由词处理器、语境处理器和辅助处理器拼接组成;对长度为N的句子进行实体识别时,首先利用大小为W步长为1目标词在窗口中心的滑动窗口依次构造文本的特征表示,将窗口内所有特征的连接作为当前词的特征输入;
所述的词处理器源于预训练的词向量和单词大小写信息拼接;语境化处理器是大量未标注生物医学语料在ELMO基础上训练所得的语境化表示;利用词典特征得到one-hot词典向量作为辅助处理器;最后,将词处理器、语境化处理器和辅助处理器进行拼接以表示当前词在特定语义空间的特征;
S3.2主胶囊层:由双层堆叠的Bi-LSTM的编码器组成;利用Bi-LSTM编码器提取i时刻的语境化特征,并记作ui;
S3.3实体胶囊层:利用共享权重的动态路由将主胶囊层路由到高级别的实体胶囊层,所述共享权重的动态路由如下:
(1)将主胶囊ui通过权重共享矩阵wj变换后得到投票向量uj|i,然后经过softmax函数为每个投票向量分配一个权重系数cij,从而计算对应于每个命名实体类别j的uj|i的加权和Sj;
(2)最后非线性挤压函数squash应用于Sj,以便在下一个路由迭代中的给出命名实体类别vj;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910982694.6/2.html,转载请声明来源钻瓜专利网。