[发明专利]用于预测蛋白质的至少一个适应度值的方法和电子系统有效
申请号: | 201680027558.6 | 申请日: | 2016-04-14 |
公开(公告)号: | CN107924429B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | N·冯塔因;F·卡德特 | 申请(专利权)人: | 皮阿赛勒公司 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B30/00;G16B25/10 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 殷骏 |
地址: | 法国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 预测 蛋白质 至少 一个 适应 方法 电子 系统 | ||
1.一种用于预测蛋白质的至少一个适应度值的方法,所述方法在计算机上执行,并且包括以下步骤:
根据蛋白质数据库(51)将所述蛋白质的氨基酸序列编码(100)成数值序列,所述数值序列包含所述序列中的每个氨基酸的值;
从所述数值序列的傅里叶变换计算(110)蛋白质谱,所述傅里叶变换被应用于编码步骤后获得的数值序列;以及
对于每个适应度:
将计算的蛋白质谱与预定数据库(55)的蛋白质谱值进行比较(130),所述数据库包含针对所述适应度的不同值的蛋白质谱值,其中比较步骤(130)包括在针对所述适应度的不同值的蛋白质谱值的预定数据库(55)中,根据预定标准确定与计算的蛋白质谱最接近的蛋白质谱值,
根据比较步骤预测(130)所述适应度的值,所述适应度的预测值等于在所述数据库中与所述确定的蛋白质谱值相关联的适应度值,
其中,在所述编码步骤(100)期间,所述蛋白质数据库(51)包括生物化学或物理化学特性值的几个指数,每个特性值被赋予相应的氨基酸,并且对于每个氨基酸,所述数值序列中的值等于给定的指数中所述氨基酸的特性值;以及
其中所述方法还包括以下步骤:
基于样本蛋白质的测量的适应度值与根据每个指数对所述样本蛋白质预先获得的预测的适应度值的比较来选择最佳指数;
然后使用所选择的指数进行所述编码步骤(100),
其中,在选择步骤期间,所选择的指数是决定系数最接近于1的指数,
其中每个指数的决定系数验证以下方程式:
其中yi为第i个样本蛋白质的测量的适应度,
为第i个样本蛋白质用第j个指数预测的适应度,
S为样品蛋白的数量,
为所述S样本蛋白质的测量的适应度的平均值,以及
为所述S样本蛋白质的预测的适应度的平均值。
2.根据权利要求1的方法,其中计算的蛋白质谱包括至少一个频率值,并将计算的蛋白质谱与每个频率值的所述蛋白质谱值进行比较。
3.根据权利要求1或2的方法,其中每个蛋白质谱验证以下方程式:
其中j是蛋白质谱|fj|的指数;
所述数值序列包括指示xk的N数值,其中0≤k≤N-1且N≥1,k是整数,N是预定整数;以及
i定义虚数,使得i2=-1。
4.根据权利要求1或2的方法,其中,在所述选择步骤期间,所选择的指数是具有最小均方根误差的指数,
其中每个指数的均方根误差验证以下方程式:
其中yi为第i个样本蛋白质的测量的适应度,
为第i个样本蛋白质用第j个指数预测的适应度,且
S为样本蛋白质的数量。
5.根据权利要求1或2的方法,其中所述方法还在所述编码步骤之后并且在所述蛋白质谱计算步骤之前包括以下步骤:
通过将所述数值序列的每个值减去所述数值序列值的平均值,对通过所述编码步骤获得的数值序列进行归一化;
然后对所述归一化的数值序列进行蛋白质谱计算步骤。
6.根据权利要求1或2的方法,其中所述方法还在所述编码步骤之后并且在所述蛋白质谱计算步骤之前包括以下步骤:
通过在所述数值序列的一端添加M个零对通过所述编码步骤获得的数值序列进行补零,其中M等于(N-P),其中N是预定整数,并且P是所述数值序列中的值的数目;
然后对补零步骤后获得的所述数值序列进行所述蛋白质谱计算步骤。
7.根据权利要求1或2的方法,其中,在所述蛋白质谱计算步骤(110)期间,根据几个频率范围计算所述蛋白质的几个蛋白质谱,以及
其中,在预测步骤期间,根据比较步骤估计每个蛋白质谱的适应度的中间值,然后使用中间适应度值来计算所述适应度的预测值。
8.根据权利要求7的方法,其中对所述中间适应度值进行回归计算所述适应度的预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皮阿赛勒公司,未经皮阿赛勒公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680027558.6/1.html,转载请声明来源钻瓜专利网。