[发明专利]一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法有效
申请号: | 201410453911.X | 申请日: | 2014-09-09 |
公开(公告)号: | CN104298651B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 李丽双;蒋振超 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/20 | 分类号: | G06F17/20;G06F17/30 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统,属于自然语言处理领域。本发明包括基于DBN的全局优化的生物医学命名实体识别、基于深度神经网络和L2‑SVM结合的蛋白质交互关系抽取功能以及基于B/S模式的提供图形交互界面的在线系统。使用本发明可以对用户待解析的生物医学文本进行生物医学命名实体的识别和蛋白质交互关系的自动抽取,抽取过程发挥了深度学习对特征进行深层优化的特点,较少的依赖人工特征参与;本发明为用户提供蛋白质交互关系数据检索的服务;另外,本发明还为用户提供了对自动解析结果的修正功能。 | ||
搜索关键词: | 一种 基于 深度 学习 生物医学 命名 实体 识别 蛋白质 交互 关系 抽取 在线 方法 | ||
【主权项】:
一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法,其特征包括如下步骤:(一)构建基于滑动窗口的NER输入向量如下表1‑1所示,对句长为N句子进行实体识别时,首先利用大小为M的滑动窗口依次构造输入向量,将窗口内所有词向量的连接作为当前词的向量;当窗口M取3时,对于词w1而言,选用<None>,w1,w2对应的向量首尾相接作为w1的输入向量;其中<None>是为填补首位位置窗口空白设计的补位符,对应的向量为0向量;而每个单词的向量则通过word2vec工具所提供的Skip‑gram语言模型在大规模未标记语料上训练得到;表1‑1(二)构建基于DBN全局优化的NER框架NER看作是序列标注,描述为:对于给定观测序列o1:T,对其赋予特定的标记序列l1:T,采用经典的BIO标注集,即lt∈{B,I,O},t表示序列中第t个位置;经第一步操作后,每一个单词的输入向量按照顺序送入基于DBN全局优化的NER框架;一个n层的模型,该框架分为预训练和基于全局优化的微调两个阶段:预训练阶段,每一层按照高斯‑伯努利RBM的自由能公式,v节点取值为实数;E(v,h;θ)=-Σi=1|v|Σj=1|h|wijvihj+12Σi=1|v|(vi-bi)2-Σj=1|h|ajhj---(9-0)]]>条件概率为:p(vi|h;θ)=N(Σj=1|h|wijhj+bi,1)---(9-2)]]>RBM的训练目标最大化v的边缘概率的期望,即在训练过程当中w权重的更新Δwij=<vihj>data‑<vihj>model,即训练数据的观察期望减去模型分布的期望;训练数据的观察期望减去模型分布的期望由Gibbs采样获得;全局优化的微调阶段,其中v为输入层,前n层各参数由预训练阶段获得;h代表RBM的隐层,bi和ai分别是b和a的第i维;将v记作h0;为了实现全局范围的优化,引入了一个转移特征,相应的全局最优的条件概率为:其中:是对应需要进行训练的系数,训练过程见公式(9‑4)所示;表示第1到T个单词的第n个隐层的相加;表1‑2系统流程其中γij是对应的需要进行训练的系数;要计算的条件概率p(l1∶T|v1∶T)是在整个句子的范围内进行全局优化的,而不是局部优化后再做出调整;神经网络的训练,即后向传播算法,分成三个部分:λ的学习,γ的学习,权重w的学习;偏导公式分别如下:∂logp(l1:Tm|v1:Tm)∂λkd=Σt=1T(δ(ltm=k)-p(ltm=k|v1:Tm))htdn,m---(9-4)]]>∂logp(l1:Tm|v1:Tm)∂γij=Σt=1T(δ(lt-1m=i,ltm=j)-p(lt-1m=i,ltm=j|v1:Tm))---(9-5)]]>∂logp(l1:Tm|v1:Tm)∂wijn=Σt=1T(λltd-Σk=1Kp(ltn=k|v1:Tn)λkd)·htdn,m(1-htdn,m)htin-1,m---(9-6)]]>其中,每一层的权重w;通过链法则进行逐级求偏导,以上只给出对第n层w求偏导的公式;(三)PPI特征提取其中,抽取了四种常见的PPI特征:1、蛋白质特征(P):一个PPI实例中涉及到的两个蛋白质名;2、上下文特征(C):蛋白质周围的词,在window中不包含蛋白质本身的词被视为context特征;3、中间词特征(B):在蛋白质之间的词;4、句子特征(S):整个句子;表2‑3特征提取(四)向量组合由于上述特征的长度不固定,而算法的输入向量是大小固定的,所以需要将原始特征变成大小固定的向量;采取向量组合的方法完成这一功能,具体如下:max:取n个向量每个维度的最大值;min:取n个向量每个维度的最小值;mean:n个向量相加后除以n;sum:n个向量相加;表3‑4向量组合(五)CNN与L2‑SVM相结合的蛋白质关系抽取表4‑5蛋白质关系抽取神经网络与SVM的结合方式,顶层不再是softmax,而是L2‑SVM;将SVM最大间隔的思想与深度神经网络结合起来,在保证特征优化的同时拥有更强的分类能力;SVM带约束的目标优化函数为:minw,ϵn12wqw+CΣn=1Nϵn,(s.q.wqxnqn≥1-ϵn,∀nϵn≥0)---(9-7)]]>其中εn是松弛变量,q即target,即实例x的标记,C是惩罚因子;通过引入拉格朗日乘子,将上述目标优化函数表示为不带约束的目标优化函数,即L2‑SVM的损失函数,记作:minw12wqw+CΣn=1Nmax(1-wqxnqn,0)2---(9-8)]]>对第n层hn求偏导公式如下:∂l(w)∂hn=w-2Cqnw(max(1-wqhnqn,0))---(9-9).]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410453911.X/,转载请声明来源钻瓜专利网。