[发明专利]一种基于语境化胶囊网络的生物医学实体识别方法有效
申请号: | 201910982694.6 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110807327B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 陈鹏;徐博;夏锋;王悦 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08;G16B50/10 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语境 胶囊 网络 生物医学 实体 识别 方法 | ||
1.一种基于语境化胶囊网络的生物医学实体识别方法,其特征在于,步骤如下:
S1:获取生物医学相关语料;
S2:对获取的相关文本进行数据预处理操作;
S3:构建语境化胶囊网络的生物医学实体识别模型,该模型由特征表示层、主胶囊层和实体胶囊层3部分构成:
S3.1特征表示层:由词处理器、语境处理器和辅助处理器拼接组成;对长度为N的句子进行实体识别时,首先利用大小为W步长为1目标词在窗口中心的滑动窗口依次构造文本的特征表示,将窗口内所有特征的连接作为当前词的特征输入;
S3.2主胶囊层:由双层堆叠的Bi-LSTM的编码器组成;利用Bi-LSTM编码器提取i时刻的语境化特征,并记作ui;
S3.3实体胶囊层:利用共享权重的动态路由将主胶囊层路由到高级别的实体胶囊层,所述共享权重的动态路由如下:
(1)将主胶囊ui通过权重共享矩阵wj变换后得到投票向量uj|i,然后经过softmax函数为每个投票向量分配一个权重系数cij,从而计算对应于每个命名实体类别j的uj|i的加权和Sj;
(2)最后非线性挤压函数squash应用于Sj,以便在下一个路由迭代中的给出命名实体类别vj;
(3)以上动态路由过程的公式如下:
uj|i=wjui (1)
vj=squash(Sj) (3)
S4:在训练集上训练语境化胶囊网络的生物医学实体识别模型,并对未知的生物医学文本进行命名实体识别;
采用如下的损失函数训练语境化胶囊网络的生物医学实体识别模型:
Lj=Ejmax(0,m+-||vj||)2+λ(1-Ej)max(0,||vj||-m-)2 (4)
其中,Ej=1当实体类别存在时,否则为0,m+,m-和λ均为超参数;
S5:后处理操作,即在语境化胶囊网络的生物医学实体识别模型预测的结果基础上设置所有的非法标签为“O”,进一步提高实体识别性能。
2.根据权利要求1所述的基于语境化胶囊网络的生物医学实体识别方法,其特征在于,所述的词处理器源于预训练的词向量和单词大小写信息拼接;语境化处理器是大量未标注生物医学语料在ELMO基础上训练所得的语境化表示;利用词典特征得到one-hot词典向量作为辅助处理器;最后,将词处理器、语境化处理器和辅助处理器进行拼接以表示当前词在特定语义空间的特征。
3.根据权利要求1或2所述的基于语境化胶囊网络的生物医学实体识别方法,其特征在于,步骤S2中,对生物医学文献进行预处理,所述的预处理包括:分词和数字替换;具体的为:统一对文本按照空格和字符集“/--;:?[]{}()!@#$%^*-+”中的字符作为切分点进行分词;统一对文本中的数字整数或浮点数用统一的标识形式“num”进行替换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910982694.6/1.html,转载请声明来源钻瓜专利网。