[发明专利]基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法在审
申请号: | 202111627067.4 | 申请日: | 2021-12-28 |
公开(公告)号: | CN114373512A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 张益嘉;刘达;杨名;陈飞 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G06F16/35;G06F16/36;G06F40/247;G06F40/289;G06F40/295 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 陈丽;李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增强 辅助 任务 蛋白质 相互作用 关系 抽取 方法 | ||
1.一种基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,其特征在于,所述方法包括:
S1、预处理蛋白质相互作用关系抽取任务的语料集,得到分词结果;
S2、将S1得到的分词结果输入到BioBERT预训练模型,生成单词的高质量上下文表示,得到整个蛋白质相互作用关系文档的特征向量;
S3、将S2中得到的特征向量送入辅助任务的全连接层进行文档分类预测;所述辅助任务为文档分类任务,所述文档分类任务用于确定描述影响蛋白质-蛋白质相互作用的基因突变的相关文献;
S4、根据S1得到的分词结果中目标实体对的位置构建高斯概率列表,在不同的令牌位置上赋上不同的概率值,将存放概率值的高斯概率列表和文档的特征向量做乘法,得到相应的目标实体增强表示;
S5、将S3中经过辅助任务获得信息增加的文档表示与S4中得到的目标实体增强表示进行连接,形成一个长向量,通过一层全连接层提取关键特征;通过全连接层提取关键特征后,再次将结果输入到全连接神经网络中,对两个生物医学实体在句子中的关系进行预测,最终得到蛋白质相互作用关系的概率分布,从而抽取蛋白质相互作用关系。
2.根据权利要求1所述的一种基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,其特征在于,S1具体包括:
使用GNormPlus工具对语料集进行蛋白质相互作用关系实体的标注;
利用数据预处理程序将原始语料转化为深度学习网络模型能够接受的输入;
使用BioBERT分词器对输入进行分词,将文档序列构建为“[CLS]Title+Abstract[SEP]”形式。
3.根据权利要求2所述的一种基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,其特征在于,BioBERT预训练模型由多层双向transformer编码器组成。
4.根据权利要求3所述的一种基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法,其特征在于,BioBERT预训练模型中使用所有令牌的最终隐藏状态来表示整个序列表示。
5.一种基于高斯增强及辅助任务的蛋白质相互作用关系抽取装置,其特征在于,所述装置包括:
预处理单元,用于预处理蛋白质相互作用关系抽取任务的语料集,得到分词结果;
特征向量单元,用于将所述预处理单元得到的分词结果输入到BioBERT预训练模型,生成单词的高质量上下文表示,得到整个蛋白质相互作用关系文档的特征向量;
辅助任务单元,用于将所述特征向量单元得到的特征向量送入辅助任务的全连接层进行文档分类预测;所述辅助任务为文档分类任务,所述文档分类任务用于确定描述影响蛋白质-蛋白质相互作用的基因突变的相关文献;
高斯增强单元,用于根据所述预处理单元得到的分词结果中目标实体对的位置构建高斯概率列表,在不同的令牌位置上赋上不同的概率值,将存放概率值的高斯概率列表和文档的特征向量做乘法,得到相应的目标实体增强表示;
蛋白质相互作用关系抽取单元,用于将所述辅助任务单元中经过辅助任务获得信息增加的文档表示与所述高斯增强单元中得到的目标实体增强表示进行连接,形成一个长向量,通过一层全连接层提取关键特征;通过全连接层提取关键特征后,再次将结果输入到全连接神经网络中,对两个生物医学实体在句子中的关系进行预测,最终得到蛋白质相互作用关系的概率分布,从而抽取蛋白质相互作用关系。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如权利要求1~4任一项所述的基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111627067.4/1.html,转载请声明来源钻瓜专利网。