[发明专利]基于BioBERT与改进Focal loss的药物互作信息提取方法在审

专利信息
申请号: 202310082731.4 申请日: 2023-02-01
公开(公告)号: CN116072306A 公开(公告)日: 2023-05-05
发明(设计)人: 韩惠蕊;李晋 申请(专利权)人: 海南医学院
主分类号: G16H70/40 分类号: G16H70/40;G06F40/30;G06F40/205;G06F16/35
代理公司: 北京汇众通达知识产权代理事务所(普通合伙) 11622 代理人: 杨倩
地址: 571199 海*** 国省代码: 海南;46
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 biobert 改进 focal loss 药物 信息 提取 方法
【权利要求书】:

1.基于BioBERT与改进Focal loss的药物互作信息提取方法,其特征在于,该方法使用生物医学语料库预训练的BioBERT模型对文本序列进行预处理,对于有两个标记药物实体e1和e2的句子,通过BioBERT层的标记嵌入、段嵌入和位置嵌入得到语义向量;对于来自隐藏层的第一个token向量(即“[CLS]”),应用具有激活函数的全连接层;对于句子中的实体,计算每个实体向量的平均值来表示该实体,然后通过具有激活函数的全连接层;最后将向量的三个部分(e1、e2和token)连接起来,将一个全连接层和一个改进的focal loss损失函数的softmax应用到最终输出中,得到DDIs分类的概率,以确定它们属于哪一类;具体包括以下步骤:

S1、预处理:对于一个给定的句子,句子中所有可能的药物实体组合都是由原始数据生成的,实例被定义为一个含有药物对的句子(即两个不同的药物实体),因此,包含一个以上药物对的句子(即两个以上不同的药物实体)被划分为几个实例,实例的数量等于句子中药物对的数量,为了标记药物对,在第一个第二个药物实体的开始插入特殊标记“e1”和“e2”分别在每个实体的末尾插入“/e1”和“/e2”此外,符号“[CLS]”和“[SEP]”被添加到每句话的开头和结尾;

S2、模型训练

Embedding层:对于目标实体e1和e2的句子,其从BioBERT输出的最终隐藏状态定义为H∈Rn*d,n为BioBERT标记化过程后句子的token数,d为BioBERT的隐藏状态大小;实体e1的BioBERT的隐藏输出将是向量Hi到Hj,i是实体e1的开始令牌的位置,j是实体e1的结束token位置;同样的,表示向量Hk到Hm是实体e2的BioBERT的最终隐藏状态输出,其中k和m是实体e2的开始和结束标记的位置;每个实体的向量表示是通过平均运算得到的;然后创建一个包含dropout层和一个具有激活操作(即tanh)的致密层的全连接层来计算两个向量;最后,H′1∈Rd*1和H′2∈Rd*1是实体e1和e2的最终输出,其数学表达式如下:

(1)、(2)式中W1=W2,b1=b2,因为它们共享相同的参数;对于句子的第一个标记(即“[CLS]”),采用全连通层和激活运算,得到H′0∈R1*d,其数学表达式如下:

H′0=W0(tanh(H0))+b0     (3)

其中,W0、W1、W2的维数是相同的,即W0∈Rd*d、W1∈Rd*d、W2∈Rd*d,式中b0、b1、b2均为偏置向量;

连接隐藏层:将H′0、H′1、H′2作为h″∈R1*3d,将h″输入到softmax层中得到预测输出,该过程可表示为:

h″=concat(H′0,H′1,H′2)    (4)

p=softmax(h″)    (5)

其中,p是最终分类概率的输出;

改进的focal loss损失函数:在训练迭代中,通常使用交叉熵作为损失函数,交叉熵的数学表达式为:

式中,y是实例的真实值,pi是预测概率,C是DDI类型的数量;显然,预测概率越接近于真实概率越好;

用pt表示yi=1时对应的概率pi,计算损失的交叉熵函数可写为:

LossCE′=-log(pt)    (7)

DDI Extraction 2013的数据是相当不平衡的,这使得模型很难进行分类,特别是对于实例较少的类型,负实例(“None”)的数量远远大于其他实例的数量,在损失中所占比列最大,这对梯度密度的影响很大;然而,DDI提取任务主要是识别量中药物实体之间的相互作用,因此需要调整每种类型的权重,以减少噪声负实例的影响;

解决不平衡问题的focal loss损失函数如下式所示:

L=-α(1-pt)γlog(pt)    (8)

其中,γ(γ>0)是focal loss损失函数的调制因子,(1-pt)γ是调整项;对于pt接近于1的易分类实例,其对应的调制项(1-pt)γ接近于0;当一个pt接近0的难分类实例,其对应的调制项(1-pt)γ接近1;与交叉熵损失相比,难分类实例的focal loss损失是稳定的,而易分类实例的focal loss损失是减小的总的来说,focal loss损失函数增加了难分类实例的权重,使得损失函数向难分类的实例倾斜;有助于提高难以分类的准确率;

式(8)中的α是对应类别(α∈[0,1])的权重因子;每个类别都对应于它唯一的α;对于i类,αi可通过以下公式计算:

其中1是类别的数量,Counti是i类的实例数量;

为避免过拟合,结合focal loss损失和交叉熵损失函数,提出了一种改进的多分类focal loss函数,采用改进的损失函数如下:

L′i=-(1-e)αi(1-pt)γlog(pt)-elog(pt)    (10)

其中超参数e可用于调整focal loss损失函数和交叉熵损失函数的权重;不同类别的损失e相同,则最终损失为各类损失之和,如式(11):

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南医学院,未经海南医学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310082731.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top