[发明专利]基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法在审
申请号: | 202111627067.4 | 申请日: | 2021-12-28 |
公开(公告)号: | CN114373512A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 张益嘉;刘达;杨名;陈飞 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G06F16/35;G06F16/36;G06F40/247;G06F40/289;G06F40/295 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 陈丽;李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增强 辅助 任务 蛋白质 相互作用 关系 抽取 方法 | ||
本发明公开了基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,涉及自然语言处理的技术领域。本发明使用生物医学领域预训练模型BioBERT生成文本文档的高质量上下文表示,从而对单词进行更加近乎实际语义的词向量表示,解决了生物医学文本中单词的一词多义问题;在BioBERT的基础上使用高斯概率分布可以提高目标蛋白质实体及其邻近词的权重,得到目标实体的增强表示,使模型学习到了实例的局部结构。使用文档分类作为辅助任务改善了从模型中获得的文档的表示,并隐含的增加了数据信息。本发明解决了目前蛋白质相互作用关系抽取中存在的输入文本长,目标蛋白质实体在数据集中分布散乱的问题,提高了该任务上性能的精度。
技术领域
本发明涉及自然语言处理的技术领域,尤其是涉及基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法。
背景技术
为了帮助健康专业人士和研究人员进行精准医疗,研究受基因突变影响的蛋白质-蛋白质相互作用具有很重要的临床意义。生物医学文献中包含大量的受基因突变影响的蛋白质-蛋白质相互作用,自动提取生物医学文献中描述的蛋白质相互作用关系是迈向精准医学的重要一步。
蛋白质相互作用关系抽取方法主要可以分为以下三类:基于手写模板的方法、基于统计机器学习的方法和基于神经网络的方法。基于模板的方法具有高精度且方法简单,但是它具有低召回率且特定领域的模板需要专家构建,困难且费时费力。基于统计机器学习的方法包括基于特征的方法和基于核的方法,它们不需要通过专家构建模板,解决了基于模板方法的部分缺点,但是需要手动设计特性或核函数来增强性能,仍旧费时费力。深度学习技术利用神经网络提取特征信息从而减少了基于统计机器学习方法中对于特征工程的依赖,所以目前现有方法大多都是使用深度学习进行蛋白质相互作用关系抽取。
但是目前的深度学习方法只是通过通用技术提高模型性能,没有考虑蛋白质相互作用关系抽取任务本身具有的特点:输入文本长,目标蛋白质实体在数据集中分布散乱,模型提取蛋白质相互作用关系的精度不高。
发明内容
有鉴于此,本发明提供了基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,通过引入高斯概率分布增强了目标蛋白质实体及其邻接词的权重,从而解决了生物医学领域中输入文本长和目标实体分布散乱的问题,增强了预训练模型在特征提取过程中对于目标实体及其邻近词语义信息的关注;同时使用了多任务学习进一步提高模型对于蛋白质相互作用关系抽取的能力。
为此,本发明提供了以下技术方案:
本发明提供了一种基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,具体步骤如下:
S1、预处理蛋白质相互作用关系抽取任务的语料集,得到分词结果;
S2、将S1得到的分词结果输入到BioBERT预训练模型,生成单词的高质量上下文表示,得到整个蛋白质相互作用关系文档的特征向量;
S3、将S2中得到的特征向量送入辅助任务的全连接层进行文档分类预测;所述辅助任务为文档分类任务,所述文档分类任务用于确定描述影响蛋白质-蛋白质相互作用的基因突变的相关文献;
S4、根据S1得到的分词结果中目标实体对的位置构建高斯概率列表,在不同的令牌位置上赋上不同的概率值,将存放概率值的高斯概率列表和文档的特征向量做乘法,得到相应的目标实体增强表示;
S5、将S3中经过辅助任务获得信息增加的文档表示与S4中得到的目标实体增强表示进行连接,形成一个长向量,通过一层全连接层提取关键特征;通过全连接层提取关键特征后,再次将结果输入到全连接神经网络中,对两个生物医学实体在句子中的关系进行预测,最终得到蛋白质相互作用关系的概率分布,从而抽取蛋白质相互作用关系。
进一步地,S1具体包括:
使用GNormPlus工具对语料集进行蛋白质相互作用关系实体的标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111627067.4/2.html,转载请声明来源钻瓜专利网。