[发明专利]基于代价敏感LSTM网络的蛋白质域检测方法及系统有效
申请号: | 201610629963.7 | 申请日: | 2016-08-04 |
公开(公告)号: | CN106295242B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 沈红斌;陈晓 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B50/00 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于代价敏感LSTM网络的蛋白质域检测方法,采用双向LSTM网络作为蛋白质域检测的模型;提出一个代价敏感的损失函数,为正负样本的错分赋予不同的代价;同时提出一种更新损失函数中代价权重的方法,对于任意给定的初始值,能够在网络训练过程中自适应地更新代价权重。采用平滑、删除、合并操作对模型的原始输出进行后处理。本发明优点包括:检测模型采用双向LSTM网络,对蛋白质序列的长程相关性进行有效建模;使用代价敏感的损失函数训练模型,适应蛋白质域数据集不平衡的特征;引入代价权重自适应更新方法,适用于任何数据集;对模型输出进行后处理,减少假阳性结果。 | ||
搜索关键词: | 基于 代价 敏感 lstm 网络 蛋白质 检测 方法 | ||
【主权项】:
1.一种基于代价敏感LSTM网络的蛋白质域检测方法,其特征在于,通过建立双向LSTM网络作为检测模型,然后采用代价敏感的损失函数进行网络训练,并在网络训练过程中自适应地调整损失函数的代价权重;再用经训练得到的双向LSTM网络检测蛋白质序列的结构域,即原始输出,最后采用平滑、删除、合并操作对训练后的双向LSTM网络的原始输出进行后处理,得到蛋白质域结果;所述的代价敏感的损失函数为:L(y,z)=‑wzlny‑(1‑z)ln(1‑y),其中:y为网络输出;z为样本类标,z=0表示域内残基,z=1表示域边界残基;w为代价权重,据此损失函数计算偏导得到网络输出层的校正误差为:所述的自适应地调整损失函数的代价权重是指:当给定一个任意的初始代价权重值w0,在每轮迭代后计算并更新代价权重为:w′=w+cr,其中:m为训练集样本数;TP、FP、FN分别为真阳性、假阳性、假阴性结果;c为常数,用于调节更新的幅度,以防止权重更新过慢或震荡变化;所述的双向LSTM网络,通过以下步骤进行训练:步骤1、初始化损失函数;步骤2、随机排列训练集样本;步骤3、顺序选取训练集样本,前向传播得到网络中各层单元的输出值;步骤4、由网络实际输出和期望输出值计算损失函数L(y,z)=‑wzlny‑(1‑z)ln(1‑y)及偏导值;步骤5、后向传播,得到损失函数关于隐藏层单元输入的偏导值;步骤6、计算损失函数关于网络权重的偏导值并更新网络权重;步骤7、选取下一个训练样本,重复步骤3~6,直到遍历训练集所有样本;步骤8、对验证集进行前向传播并计算损失函数值;步骤9、与训练过程中验证集的最小损失函数值进行比较,并累计损失值不再降低的连续迭代次数;步骤10、判断损失值不再降低的连续迭代次数是否达到设定的最大次数;若小于设定的最大次数,则计算并更新损失函数的代价权重,重复步骤2~10;否则,结束训练;所述的平滑,即采用窗口对模型原始输出值进行平均处理:其中:i为氨基酸残基在蛋白质序列中的位置,2l+1为窗口大小,边界值以0补齐;所述的删除,即当平滑后的值为y’,域边界区域定义为输出值大于截断值yc的一段连续残基,其中:n为域边界数,y’(i)‑yc表示了边界检测的置信度,定义域边界区域面积当截断得到的域边界区域面积小于阈值,即S(k)<Smin,则认为该域边界为假阳性结果,予以删除;所述的合并,即当两个检测的域边界位置间的距离很接近,就将这两个域边界区域合并为一个,具体为:分别为域边界区域的起始和结束位置,则所检测的域边界位置为合并后的域边界位置为:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610629963.7/,转载请声明来源钻瓜专利网。
- 上一篇:纺织面料(2016‑46)
- 下一篇:一种蛋白质-RNA复合物结构预测方法