[发明专利]一种基于层次推理的医学实体关系抽取方法有效
申请号: | 202110709798.7 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113553440B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 段鹏飞;熊晨薇;熊盛武;尹娇柔 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06N3/04;G06N3/08;G06N5/04;G06K9/62;G16H50/70;G06F40/211;G06F40/242;G06F40/247 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 推理 医学 实体 关系 抽取 方法 | ||
1.一种基于层次推理的医学实体关系抽取方法,其特征在于,包括:
S1:获取训练语料,训练语料为医学数据集;
S2:构建实体关系抽取模型,实体关系抽取模型包括嵌入模块、特征提取模块、实体层推理模块、句子层推理模块、文档层推理模块以及关系分类模块,其中,嵌入模块用于分别获取输入文本的句子层嵌入表示和实体层嵌入表示,特征提取模块用于采用门控膨胀卷积网络进行特征提取,实体层推理模块用于融合实体信息、实体类型信息和共指信息对实体进行表示,将双线性变换和迁移约束应用在多个子空间的目标实体对,获得实体层推理信息,句子层推理模块用于引入注意力机制来计算每个句子所提供的信息量权重,将句子的单词表示形式进行融合得到句子向量,然后融合实体层推理信息得到句子层推理信息,文档层推理模块用于在句子层推理信息的基础上构建一个门控膨胀卷积网络,并引入注意力机制得到文档层推理信息,关系分类模块用于将实体层推理信息与文档层推理信息进行融合,得到实体关系的类别;
S3:利用获取的训练语料对实体关系抽取模型进行训练,使用交叉熵作为损失函数,利用Adam优化器来更新模型的参数,得到训练好的实体关系抽取模型;
S4:利用训练好的实体关系抽取模型对输入文本的实体关系进行抽取。
2.如权利要求1所述的医学实体关系抽取方法,其特征在于,步骤S1包括:
S1.1:构建以新冠肺炎疾病为中心的实体关系类型体系;
S1.2:爬取新冠肺炎相关文献语料;
S1.3:利用医学知识库中的三元组与新冠肺炎语料进行实体对齐;
S1.4:利用基于双数组字典树的方法对实体对齐后的语料进行自动标注,得到新冠肺炎实体关系抽取语料库,将其作为训练语料。
3.如权利要求1所述的医学实体关系抽取方法,其特征在于,步骤S2中嵌入模块,采用预训练模型BioBERT得到具有上下文信息的词向量表示,词向量表示与位置特征表示作为句子层嵌入表示,利用Glove得到包含实体信息和实体类型信息的实体类型向量和包含共指信息的共指向量,作为实体层嵌入表示。
4.如权利要求1所述的医学实体关系抽取方法,其特征在于,步骤S2中句子层推理模块的处理过程包括:
将词向量表示与位置特征表示结合输入到特征提取模块中,得到隐藏层的特征向量表示其中,hjt表示第j个句子中的第t个单词的隐藏层的特征向量,DGConv表示特征提取模块中门控膨胀卷积神经网络的运算过程,wjt表示第j个句子中的第t个单词的词向量,与分别为头实体与尾实体的位置向量特征表示;
将隐藏层向量输入到一个多层感知器MLP中,计算公式为:
其中,表示维度为d的实体域,tanh为多层感知器的激活函数,Ww,bw,uw为学习参数,表示uw的转置,L表示句子总数,Tj表示第j句的单词总数;
根据单词与目标实体的相关性获得单词的权重,计算公式为:
其中,exp表示以e为底的指数函数,αjt表示多层感知器的输出,下方分母的含义为对整句中所有词向量的MLP输出的以e为底的指数函数结果求和;
通过将单词的隐层向量加权求和得到句子向量Sj,
Sj=∑tαjthjt
上式中,右侧表示对整句中所有词向量的权重与隐藏层向量的乘积求和。
5.如权利要求1所述的医学实体关系抽取方法,其特征在于,门控膨胀卷积网络的膨胀卷积的形式化公式为:
其中,f为输入,w为卷积核,t为卷积核的大小,p为卷积的下限值,q为卷积的上限值,l为膨胀率,左侧公式(f*lw)[t]为f与w的膨胀率为l的卷积,右侧为该膨胀卷积的标准展开形式,f[t-l*p]是第t-l*p个输入值,w[p]是卷积核大小为p时的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110709798.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多匝线圈的无线电能传输系统
- 下一篇:一种用于森林防火热成像装置