[发明专利]基于图像处理的多序列比对可视化的方法在审
申请号: | 201810023610.1 | 申请日: | 2018-01-10 |
公开(公告)号: | CN108052799A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 王玲芳;李伟忠;郑贵锋 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06T7/00;G06T7/13;G06T7/90 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图像 处理 序列 可视化 方法 | ||
本发明涉及一种基于图像处理的多序列比对可视化的方法,包括以下步骤:S1.将多序列比对算法产生的多条氨基酸序列作为输入;S2.分别为不同类型的氨基酸定义不同的颜色,然后对氨基酸序列进行颜色转换;S3.结合图像转换,将氨基酸序列中的每一个氨基酸分别对应图像中的一个像素,像素的颜色对应氨基酸的颜色,图像转换将多条一维的氨基酸序列转换成二维彩色图像;S4.对转换的图像利用基于边缘检测的图像分割算法进行分割,将分割后的图像展现给用户。
技术领域
本发明涉及生物信息学技术领域,更具体地,涉及一种基于图像处理的多序列比对可视化的方法。
背景技术
近年来,随着人类基因组计划在世界范围内的开展,人类基因组草图已基本完成,标志着人类对生命信息的探索进入了一个新的阶段。同时,对基因表达模式、蛋白质结构、蛋白质-蛋白质相互作用分析得到的数据越来越多。生物信息学的研究重点主要体现在基因组学和蛋白质组学两方面,具体地说就是从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物序列进行分析,也就是研究新的计算机方法,从大量的序列信息中获取基因结构、功能和进化等知识。生物序列检索在生物信息学中是一项基础性工作。生物学研究认为:生物序列的功能是由它的结构决定的,而它的结构往往是由一些特定的子序列决定的。所以,进行特定序列的检索在生物学中具有重要的意义:可以用来进行蛋白质的功能区域预测、蛋白质保守区域的判断等。
目前有很多针对序列可视化的方法,但大多数是针对DNA序列的可视化。由于蛋白质序列隐含了蛋白质的结构信息,对于蛋白质序列的可视化一般要结合其生物学的意义,利用不同氨基酸序列之间的结构信息,例如α螺旋和β折叠。对于非生物学的专业的人来说,以氨基酸结构信息为目的来可视化序列信息是不可能的。此外,已有很多软件在根据氨基酸序列预测蛋白质结构上已经做得很完善,但是,对于没有生物学背景的研究人员,如果只是想根据序列相似性比对的结果做简单的总体性的分析,比如分析蛋白质可能的保守区域和变异区,这些软件的操作步骤是繁琐且不易使用的。为了方便用户在进行多序列比对后的进一步分析,可以针对大数据量的序列信息进行可视化。
目前常用的序列可视化方法为“基于灰度图像的DNA序列可视化方法”和“基于元胞自动机的蛋白质序列图像生成方法”。
“基于灰度图像的DNA序列可视化方法”的具体执行步骤如下:
1)对DNA序列的四种碱基编码:A-00,T-11,C-01,G-10;
2)将4个碱基组合成一个8位的数据,数据范围是0~255,在原始的DNA序列后面添加3个碱基“AAA”,保证每个DNA序列都可以编码;
3)假设原始DNA序列的长度是L,那么找最小的N,使N*N>=L,将DNA序列编码成一维数据的后面补上(N*N-L)个0,然后将一维数据转换成二维的图像。
DNA序列由四种核苷酸A、T、C、G排列组合而成,对于四种碱基也只需要2个字节编码即可。将DNA序列转换成图像信息后,可以利用图像处理技术对DNA序列信息进行分析。经过上述处理,任何一条DNA序列都可以编码得到等宽高的图像,这为后面要进行的分析提供了基础。保存这种格式的图片之后,研究者可以在极小的空间内可视化较长的序列。通过分析图像可以直观地看出DNA四种碱基的大致分布情况,也可以用不同的图像做对比,实现DNA序列的相似性比较。
但是,在用户体验上,“基于灰度图像的DNA序列可视化方法”只能根据已有的DNA序列信息构建出灰度图像,用户无法从颜色单一的图像获取较为准确或者有用的信息,这种可视化结果在实际应用中并不能满足用户需求。
而“基于元胞自动机的蛋白质序列图像生成方法”,首要解决的问题是建立氨基酸数字编码模型。蛋白质所有分子间相互作用和分子内部相互作用都受相似规则、互补规则或者两种规则同时作用,所以在编码的过程中要考虑到这些规则。通过数字编码将氨基酸序列变成一维的01序列。
主要的规则如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810023610.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序