[发明专利]一种基于贝叶斯网络的信号肽剪切位点预测方法无效

专利信息
申请号: 201010596834.5 申请日: 2010-12-21
公开(公告)号: CN102034029A 公开(公告)日: 2011-04-27
发明(设计)人: 孔祥增;张胜元;陈尤莺;陈丽萍;许力 申请(专利权)人: 福建师范大学
主分类号: G06F19/00 分类号: G06F19/00;G06N3/08
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 蔡学俊
地址: 350007 福*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 贝叶斯 网络 信号肽 剪切 预测 方法
【说明书】:

技术领域

发明涉及一种信号肽预测方法,特别设计一种基于贝叶斯网络的信号肽剪切位点预测方法。

背景技术

信号肽是一种短肽链,用于指导蛋白质的合成及运输,并已成为在寻找新的药物或用于基因治疗的细胞重新编程的重要工具。随着新的蛋白质序列在后基因组时代爆炸式地产生,识别出新的信号序列,在生物医学上成为了一项重要且紧迫的挑战。面对新蛋白质序列,为了及时将它们用于基础研究和药物发现,这急切需要开发快速并且准确的算法来鉴别信号序列和预测它们的剪切位点。其实,在这方面所作的努力已经很多了。根据不同的特征,几种机器学习方法已经被提出用于这个任务,如神经网络,隐马尔可夫模型,支持向量机。最近,沈和周开发了基于证据理论的两种算法Signal-3L和PrediSi来预测信号序列,并实现良好的效果。本发明提出一种基于贝叶斯网络的信号肽剪切位点预测方法,称为Signal-BNs。Signal-BNs的特点是有较高的预测准确性,相当有应用前景,它优于其他两个流行的信号肽预测方法Signal-3L和PrediSi。

发明内容

本发明的目的在于提供一种基于概率神经网络集成的信号肽预测方法,本发明具有很好的可行性和有效性,能有效满足对信号肽的预测。

本发明的特征在于:一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:

a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;

b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;

c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;

d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;

e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;

f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。

本发明的优点:本发明预测的准确率高,并且算法运行速度快,算法结构简洁,能有效满足对信号肽的预测。

附图说明

图1为本发明实施例的算法模型图。

具体实施方式

参考图1,一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:

a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;

b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;

c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;

d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;

e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;

f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。

其中步骤b中所述滑动窗口的大小为15。

步骤c中所述负样本的随机抽样过程为对负样本进行10%的随机过程抽样。

具体实施过程如下:

1.蛋白质样本数据集的预处理步骤:

1)读取所有的蛋白质数据集并编码蛋白质序列到矩阵中,由于蛋白质是由20种氨基酸组成的序列,所以用从1到21的整数来编码蛋白质序列(A = 1和C = 2,...,为Y = 20,空= 21);

2)选择大小为15的滑动窗口来切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;。

3)由于正负样本间存在极端的不平衡,负类样本数显著高于正类样本数,为平衡这个问题,对负类样本进行10%随机过程的抽样,则正类样本与抽样后得到的负类样本共同组成最终的样本集。

2.贝叶斯网络学习和推理算法步骤

贝叶斯网络是由Judea Pearl在1985年创造的,这是一种学习机,编码的一组变量                                               的联合概率分布,得到一个有向无环图和条件概率表集(CPTs)。 

本发明采用滑动窗口的方法,用符号标记,即滑动窗口用连续标记,用于定义界定在一个滑动窗口内的蛋白质序列的氨基酸的位置,这样的段可以被用来作为“基准窗口”搜索沿着蛋白质序列的剪切位点和推断其相应信号肽。另一方面,一个序列一般可以表示为:

其中, 代表了在位置上的氨基酸残基,代表了在位置上的氨基酸残基,等等。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010596834.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top