[发明专利]一种基于贝叶斯网络的信号肽剪切位点预测方法无效
申请号: | 201010596834.5 | 申请日: | 2010-12-21 |
公开(公告)号: | CN102034029A | 公开(公告)日: | 2011-04-27 |
发明(设计)人: | 孔祥增;张胜元;陈尤莺;陈丽萍;许力 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06N3/08 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350007 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 网络 信号肽 剪切 预测 方法 | ||
技术领域
本发明涉及一种信号肽预测方法,特别设计一种基于贝叶斯网络的信号肽剪切位点预测方法。
背景技术
信号肽是一种短肽链,用于指导蛋白质的合成及运输,并已成为在寻找新的药物或用于基因治疗的细胞重新编程的重要工具。随着新的蛋白质序列在后基因组时代爆炸式地产生,识别出新的信号序列,在生物医学上成为了一项重要且紧迫的挑战。面对新蛋白质序列,为了及时将它们用于基础研究和药物发现,这急切需要开发快速并且准确的算法来鉴别信号序列和预测它们的剪切位点。其实,在这方面所作的努力已经很多了。根据不同的特征,几种机器学习方法已经被提出用于这个任务,如神经网络,隐马尔可夫模型,支持向量机。最近,沈和周开发了基于证据理论的两种算法Signal-3L和PrediSi来预测信号序列,并实现良好的效果。本发明提出一种基于贝叶斯网络的信号肽剪切位点预测方法,称为Signal-BNs。Signal-BNs的特点是有较高的预测准确性,相当有应用前景,它优于其他两个流行的信号肽预测方法Signal-3L和PrediSi。
发明内容
本发明的目的在于提供一种基于概率神经网络集成的信号肽预测方法,本发明具有很好的可行性和有效性,能有效满足对信号肽的预测。
本发明的特征在于:一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:
a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;
b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;
c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;
d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;
e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;
f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。
本发明的优点:本发明预测的准确率高,并且算法运行速度快,算法结构简洁,能有效满足对信号肽的预测。
附图说明
图1为本发明实施例的算法模型图。
具体实施方式
参考图1,一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:
a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;
b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;
c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;
d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;
e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;
f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。
其中步骤b中所述滑动窗口的大小为15。
步骤c中所述负样本的随机抽样过程为对负样本进行10%的随机过程抽样。
具体实施过程如下:
1.蛋白质样本数据集的预处理步骤:
1)读取所有的蛋白质数据集并编码蛋白质序列到矩阵中,由于蛋白质是由20种氨基酸组成的序列,所以用从1到21的整数来编码蛋白质序列(A = 1和C = 2,...,为Y = 20,空= 21);
2)选择大小为15的滑动窗口来切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;。
3)由于正负样本间存在极端的不平衡,负类样本数显著高于正类样本数,为平衡这个问题,对负类样本进行10%随机过程的抽样,则正类样本与抽样后得到的负类样本共同组成最终的样本集。
2.贝叶斯网络学习和推理算法步骤
贝叶斯网络是由Judea Pearl在1985年创造的,这是一种学习机,编码的一组变量 的联合概率分布,得到一个有向无环图和条件概率表集(CPTs)。
本发明采用滑动窗口的方法,用符号标记,即滑动窗口用连续标记,用于定义界定在一个滑动窗口内的蛋白质序列的氨基酸的位置,这样的段可以被用来作为“基准窗口”搜索沿着蛋白质序列的剪切位点和推断其相应信号肽。另一方面,一个序列一般可以表示为:
其中, 代表了在位置上的氨基酸残基,代表了在位置上的氨基酸残基,等等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010596834.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用