[发明专利]基于数字图像处理的DNA序列的二维图像表示方法有效
申请号: | 201110148917.2 | 申请日: | 2011-06-03 |
公开(公告)号: | CN102324002A | 公开(公告)日: | 2012-01-18 |
发明(设计)人: | 刘咏梅 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数字图像 处理 dna 序列 二维 图像 表示 方法 | ||
技术领域
本发明涉及的是一种利用数字图像处理技术进行生物信息处理的方法,具体地说是一种利用数字图像处理技术对DNA序列进行二维表示的方法。
背景技术
如何在DNA序列数据中定位基因组中的各种功能单元以及建立这些功能单元之间的相互关系模型是目前生物信息学研究的一个热点问题。启动子是位于基因上游的一小段DNA序列,它上面的遗传密码可以启动基因的转录。作为基因组中最重要的调控元件,启动子识别问题对于基因的定位和基因组功能的其它研究是具有重要意义。但遗憾的是,迄今为止并未发现可以唯一确定启动子的信号特征。例如,被认为是最重要的启动子特征之一的CpG岛,通常会出现在离转录起始点很近的位置上,也仅约有60%的启动子含有CpG岛。
发明内容
本发明的目的在于提供一种能扩展序列的隐含信息,增强DNA序列中启动子等重要功能元件的可预测性的基于数字图像处理的DNA序列的二维图像表示方法。
本发明的目的是这样实现的:
步骤1,一维的DNA序列的二维图像矩阵排列;
步骤2,构造图像的像素灰度;
步骤3,计算DNA序列的转录模式在二维图像表示中的特征;将转录模式定义为图像中的目标物体部分,借助于图像中的物体识别方法,对定义的目标进行图像分割,对待识图像区域进行特征提取。
本发明还可以包括:
1、所述的一维的DNA序列的二维图像矩阵排列是按下列方式之一进行排列:①Line-by-line方式,将序列按顺序一行接着一行排列,确定矩阵列数后,到每行的最后一列时就开始新的一行的排列,去掉剩余的不完整的行或用某种碱基补齐;②S形方式,将序列按S形排列,确定矩阵列数后,从左到右排列到最后一列时,新的一行由右向左排列;从右到左排列到第一列时,新的一行由左向右排列,去掉剩余的不完整的行或用某种碱基补齐;③漩涡方式,确定矩阵列数后,将序列按漩涡形状由里向外或者由外向里排列,去掉剩余的不完整的行或者列或用某种碱基补齐;由外向里排列时,相当于从序列的末端开始由里向外排列。
2、所述构造图像的像素灰度是直接赋予四种碱基四个灰度,T为0、A为1、C为3、G为2。
3、所述构造图像的像素灰度是用16个、64个灰度级来赋予图像的灰度级。
4、按不同的灰度级构造的多幅图像进行叠加。
本发明旨在利用数字图像处理技术对DNA序列进行二维表示,扩展序列的隐含信息,以增强DNA序列中启动子等重要功能元件的可预测性。
本发明通过对一维DNA序列进行二维的重新排列,来进一步改善序列的信号特征在启动子识别中作用,进一步挖掘DNA序列数据的隐藏信息。这里说的“重排”与基因组学中的染色体重排和基因重排是完全不同的概念。本发明所进行的DNA序列的重新排列,是从特征提取的角度出发,目的是为了进行DNA序列的二维表示后可以提取到更加有效的信号特征,来进行启动子识别。
本发明对DNA序列进行二维表示,是考虑到转录因子等信号模式特征对启动子序列具有识别能力,而启动子中包含的转录因子结合位点可能有多个,这说明转录因子具有某种记忆能力,它阅读到新的结合位点时并没有将前面的结合位点遗忘。通过DNA序列的二维表示将一串较长的DNA序列集中起来,使序列结构变得更加紧凑。
附图说明
附图是本发明的流程图。
具体实施方式
下面结合附图举例对本发明做更详细的描述:
本发明是一种基于数字图像处理技术的DNA序列的二维图像表示方法,通过将一维的DNA序列中四种碱基符号A、T、C、G按一定的规律进行二维排列,并赋予不同的碱基以不同的灰度级,得到二维图像矩阵。
步骤1,一维的DNA序列的二维图像矩阵排列。可以按下列方式进行排列:①Line-by-line方式。将序列按顺序一行接着一行排列,确定矩阵列数后,到每行的最后一列时就开始新的一行的排列,去掉剩余的不完整的行或用某种碱基补齐。②S形方式。将序列按S形排列,确定矩阵列数后,从左到右排列到最后一列时,新的一行由右向左排列;从右到左排列到第一列时,新的一行由左向右排列,去掉剩余的不完整的行或用某种碱基补齐。③漩涡方式。确定矩阵列数后,将序列按漩涡形状由里向外或者由外向里排列,去掉剩余的不完整的行或者列或用某种碱基补齐。由外向里排列时,相当于从序列的末端开始由里向外排列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110148917.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:USB连接件及USB装置
- 下一篇:道路表面多孔隙树脂封层及其施工方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用