[发明专利]考虑到准确度的碱基序列对准装置及方法在审
申请号: | 201410598987.1 | 申请日: | 2014-10-30 |
公开(公告)号: | CN104598768A | 公开(公告)日: | 2015-05-06 |
发明(设计)人: | 朴旻壻 | 申请(专利权)人: | 三星SDS株式会社 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 胡江海;孙昌浩 |
地址: | 韩国*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 考虑到 准确度 碱基 序列 对准 装置 方法 | ||
技术领域
本发明的实施例涉及一种用于分析基因组的碱基序列的技术。
背景技术
参考序列与短片段之间的碱基序列对准基本上利用基于碱基序列的同源性(homology)的精确匹配(exact matching)。然而,由于测序过程中的误差以及生命体的遗传信息上的变异(polymorphism)等,因此有必要在碱基序列对准算法中允许一定程度的误差(失配:mismatch)。
尤其是,在关于特定生命体的整体基因组的研究等中允许所述的一定程度的误差的碱基序列对准算法会有效。然而,在只对特定疾病(例如,癌症(cancer))进行诊断的医疗市场中,只对与特定疾病相关联的部分区域进行分析而不对整体基因组进行分析的情况居多,在这种情况下比起速度更需要准确度高的碱基序列对准算法。
【现有技术文献】
韩国公开专利公报第10-2013-0060744号(2013.06.10.)
发明内容
本发明的实施例的目的在于提供一种用于更准确地对准从测序仪获得的大量的短小碱基序列的碱基序列对准方案。
根据本发明的示例性实施例,提供一种碱基序列对准装置,包括:种子提取单元,从短片段(read)提取与参考序列(reference sequence)精确匹配的一个以上的种子(seed);映射分值计算单元,针对提取的所述一个以上的种子中的每个,在各个种子的所述参考序列中的各个映射位置以所述种子为中心将所述短片段的左侧区域及右侧区域分别映射到所述参考序列,并基于所述映射结果来计算所述各个映射位置的左侧映射分值及右侧映射分值;短片段对准单元,利用计算出的所述左侧映射分值及所述右侧映射分值来确定所述短片段在所述参考序列中的映射位置。
所述映射分值计算单元可将所述短片段的左侧区域从所述短片段的左侧区域的与所述种子连接的碱基(base)开始朝左侧方向依次映射到所述参考序列,并且可将所述短片段的右侧区域从所述短片段的右侧区域的与所述种子连接的碱基(base)开始朝右侧方向依次映射到所述参考序列。
所述映射分值计算单元可生成将所述短片段的左侧区域及与所述左侧区域对应的所述参考序列的一部分分别作为列及行的第一矩阵、以及将所述短片段的右侧区域及与所述右侧区域对应的所述参考序列的一部分分别作为列及行的第二矩阵,并且针对生成的所述第一矩阵及第二矩阵中的各个单元格,赋予根据相关单元格的行值和列值的一致与否来设定的匹配分值或不匹配分值,并且利用被赋予所述匹配分值或不匹配分值的所述第一矩阵及第二矩阵来计算所述左侧映射分值及所述右侧映射分值。
所述左侧映射分值可以是从所述第一矩阵的右上端最后一个单元格开始朝左侧、下方或左下端对角线方向中的一个方向依次移动而到达所述第一矩阵的左下端第一个单元格来形成的路径上赋予的所述匹配分值或不匹配分值的总和中的最大值,所述右侧映射分值可以是从所述第二矩阵的左上端第一个单元格开始朝右侧、下方或右下端对角线方向中的一个方向依次移动而到达所述第二矩阵的右下端最后一个单元格来形成的路径上赋予的所述匹配分值或不匹配分值的总和中的最大值。
所述匹配分值可以是大于或等于0的实数,所述不匹配分值可以是小于0的实数。
所述匹配分值可被设定为1,所述不匹配分值可被设定为-1。
所述短片段对准单元可在分别按种子的所述参考序列中的映射位置来计算的所述左侧映射分值及所述右侧映射分值的总和大于设定的标准值的映射位置中将所述总和最大的映射位置确定为所述短片段的映射位置。
根据本发明的另一个示例性实施例,提供一种碱基序列对准方法,包括如下步骤:在种子提取单元中,从短片段(read)提取与参考序列(reference sequence)精确匹配的一个以上的种子(seed);在映射分值计算单元中,针对提取的所述一个以上的种子中的每个,在各个种子的所述参考序列中的各个映射位置以所述种子为中心将所述短片段的左侧区域及右侧区域分别映射到所述参考序列,基于所述映射结果来计算所述各个映射位置的左侧映射分值及右侧映射分值;在短片段对准单元中,利用计算出的所述左侧映射分值及所述右侧映射分值来确定所述短片段在所述参考序列中的映射位置。
在计算所述左侧映射分值及右侧映射分值的步骤中,可将所述短片段的左侧区域及所述右侧区域从所述短片段的左侧区域及右侧区域的与所述种子连接的碱基(base)开始朝所述种子的相反方向依次映射到所述参考序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星SDS株式会社;,未经三星SDS株式会社;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410598987.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用