[发明专利]一种非模式生物转录组基因序列结构分析的方法有效
申请号: | 201610519754.7 | 申请日: | 2016-07-05 |
公开(公告)号: | CN106202998B | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 肖世俊;韩兆方;王志勇 | 申请(专利权)人: | 集美大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 361000 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种非模式生物转录组基因序列结构分析的方法,包括以下步骤:(1)得到最优比对结果;(2)确定有蛋白编码模式,确定翻译终止位置;(3)确定基因序列的编码起始位置;(4)利用基因模型进行分类;(5)使用转录组序列中确定编码方式的核酸序列,使用马尔科夫链训练编码蛋白的核酸序列模型;(6)确定未比对基因的蛋白编码序列的编码方式。本发明对任何非模式生物的转录组测序获得的大量的基因序列进行高通量结构分析,分析过程自动完成了转录组序列的功能注释;并且利用基于比对的高度可靠的蛋白编码核酸序列构建了马尔科夫模型和支持向量机模型,对未比对基因序列进行分析,使得序列结构分析的可信度更高。 | ||
搜索关键词: | 一种 模式 生物 转录 基因 序列 结构 分析 方法 | ||
【主权项】:
1.一种非模式生物转录组基因序列结构分析的方法,其特征在于,包括以下步骤:(1)通过序列比对,得到转录组基因序列在公共蛋白数据库的最优比对结果;(2)根据步骤(1)所述的最优比对结果,确定有比对结果的基因序列的蛋白编码模式,确定翻译终止位置:将蛋白比对的结果转换为核酸的比对,确定核酸翻译蛋白序列的编码方式,并按照这个编码方式向后继续读取核酸三联体密码子,一直读到终止密码子结束;如果没有读到终止密码,则表示cDNA序列不完整,核酸序列全部翻译直到序列结束;如果读到终止密码,则后续的序列是该基因的3’‑UTR;(3)利用公共的蛋白序列,通过马尔科夫链训练获得编码起始的序列特征,确定基因序列的编码起始位置;(4)使用已知的编码蛋白的核酸序列,利用支持向量机SVM训练编码蛋白的基因模型,对于没有比对上任何已知蛋白序列的基因利用上述模型进行分类;(5)使用转录组序列中确定编码方式的核酸序列,使用马尔科夫链训练编码蛋白的核酸序列模型;(6)对于通过SVM分类为蛋白编码的核酸序列,通过上述马尔科夫链模型,确定剩余蛋白编码序列的编码方式。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于集美大学,未经集美大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610519754.7/,转载请声明来源钻瓜专利网。