[发明专利]基于代价敏感LSTM网络的蛋白质域检测方法及系统有效

申请号：	201610629963.7	申请日：	2016-08-04
公开（公告）号：	CN106295242B	公开（公告）日：	2019-03-26
发明（设计）人：	沈红斌;陈晓	申请（专利权）人：	上海交通大学
主分类号：	G16B15/00	分类号：	G16B15/00;G16B50/00
代理公司：	上海交达专利事务所 31201	代理人：	王毓理;王锡麟
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于代价敏感LSTM网络的蛋白质域检测方法，采用双向LSTM网络作为蛋白质域检测的模型；提出一个代价敏感的损失函数，为正负样本的错分赋予不同的代价；同时提出一种更新损失函数中代价权重的方法，对于任意给定的初始值，能够在网络训练过程中自适应地更新代价权重。采用平滑、删除、合并操作对模型的原始输出进行后处理。本发明优点包括：检测模型采用双向LSTM网络，对蛋白质序列的长程相关性进行有效建模；使用代价敏感的损失函数训练模型，适应蛋白质域数据集不平衡的特征；引入代价权重自适应更新方法，适用于任何数据集；对模型输出进行后处理，减少假阳性结果。
搜索关键词：	基于代价敏感 lstm 网络蛋白质检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于代价敏感LSTM网络的蛋白质域检测方法，其特征在于，通过建立双向LSTM网络作为检测模型，然后采用代价敏感的损失函数进行网络训练，并在网络训练过程中自适应地调整损失函数的代价权重；再用经训练得到的双向LSTM网络检测蛋白质序列的结构域，即原始输出，最后采用平滑、删除、合并操作对训练后的双向LSTM网络的原始输出进行后处理，得到蛋白质域结果；所述的代价敏感的损失函数为：L(y,z)＝‑wzlny‑(1‑z)ln(1‑y)，其中：y为网络输出；z为样本类标，z＝0表示域内残基，z＝1表示域边界残基；w为代价权重，据此损失函数计算偏导得到网络输出层的校正误差为：所述的自适应地调整损失函数的代价权重是指：当给定一个任意的初始代价权重值w₀，在每轮迭代后计算并更新代价权重为：w′＝w+cr，其中：m为训练集样本数；TP、FP、FN分别为真阳性、假阳性、假阴性结果；c为常数，用于调节更新的幅度，以防止权重更新过慢或震荡变化；所述的双向LSTM网络，通过以下步骤进行训练：步骤1、初始化损失函数；步骤2、随机排列训练集样本；步骤3、顺序选取训练集样本，前向传播得到网络中各层单元的输出值；步骤4、由网络实际输出和期望输出值计算损失函数L(y,z)＝‑wzlny‑(1‑z)ln(1‑y)及偏导值；步骤5、后向传播，得到损失函数关于隐藏层单元输入的偏导值；步骤6、计算损失函数关于网络权重的偏导值并更新网络权重；步骤7、选取下一个训练样本，重复步骤3～6，直到遍历训练集所有样本；步骤8、对验证集进行前向传播并计算损失函数值；步骤9、与训练过程中验证集的最小损失函数值进行比较，并累计损失值不再降低的连续迭代次数；步骤10、判断损失值不再降低的连续迭代次数是否达到设定的最大次数；若小于设定的最大次数，则计算并更新损失函数的代价权重，重复步骤2～10；否则，结束训练；所述的平滑，即采用窗口对模型原始输出值进行平均处理：其中：i为氨基酸残基在蛋白质序列中的位置，2l+1为窗口大小，边界值以0补齐；所述的删除，即当平滑后的值为y’，域边界区域定义为输出值大于截断值y_c的一段连续残基，其中：n为域边界数，y’(i)‑y_c表示了边界检测的置信度，定义域边界区域面积当截断得到的域边界区域面积小于阈值，即S^(k)<S_min，则认为该域边界为假阳性结果，予以删除；所述的合并，即当两个检测的域边界位置间的距离很接近，就将这两个域边界区域合并为一个，具体为：分别为域边界区域的起始和结束位置，则所检测的域边界位置为合并后的域边界位置为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610629963.7/，转载请声明来源钻瓜专利网。

上一篇：纺织面料（2016‑46）
下一篇：一种蛋白质-RNA复合物结构预测方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于代价敏感LSTM网络的蛋白质域检测方法及系统有效

专利文献下载