[发明专利]设计目标区域特异性液相探针的方法和系统有效
申请号: | 201610204253.X | 申请日: | 2016-04-01 |
公开(公告)号: | CN107292125B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 张浩;李振宇;马升升;李红玉;李建康;黄慧强;申丹;蒋慧;张建国 | 申请(专利权)人: | 深圳华大基因科技有限公司 |
主分类号: | G16B25/20 | 分类号: | G16B25/20;C12Q1/6869 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 李志东 |
地址: | 518083 广东省深圳市盐田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 设计 目标 区域 特异性 探针 方法 系统 | ||
1.一种设计目标区域特异性液相探针的方法,其特征在于,包括以下步骤:
(1)将目标区域向上下游延伸预定长度,以便获得经过处理的目标区域,所述经过处理的目标区域是由数量为Wnum的窗口构成的;
(2)针对所述经过处理的目标区域,间隔固定步长选取长度为Plen的探针序列,以便构建获得初始探针集;
(3)对所述初始探针集进行第一筛选,去除含有未知碱基的探针序列,以便获得经过第一筛选的探针集;
(4)确定所述经过第一筛选的探针集中每一条探针的探针属性参数,所述探针属性参数为选自探针序列中简单重复序列的含量Prepeat、探针序列的15mer的频数的平均值PavgKmerFreq、探针序列在源基因组中的比对次数PwHits和探针序列是否含有连续相同的碱基PisPoly的至少一种;
(5)基于所述探针属性参数,对所述经过第一筛选的探针集进行第二筛选,以便获得经过第二筛选的探针集;
(6)确定所述经过第二筛选的探针集中每一条探针的分值Pscore
(7)针对所述经过处理的目标区域的每个窗口,基于所述经过第二筛选的探针集中在所述窗口内的所有探针的Pscore值,确定一条最优探针;以及
(8)合并所有窗口的最优探针,以便获得最优探针集。
2.根据权利要求1所述的方法,其特征在于,在步骤(1)中,所述预定长度为30-50bp。
3.根据权利要求2所述的方法,其特征在于,所述预定长度为40bp。
4.根据权利要求1所述的方法,其特征在于,在步骤(2)中,所述固定步长为1-3bp。
5.根据权利要求4所述的方法,其特征在于,所述固定步长为1bp。
6.根据权利要求1所述的方法,其特征在于,在步骤(2)中,所述Plen为30-200bp。
7.根据权利要求6所述的方法,其特征在于,Plen为90bp。
8.根据权利要求1所述的方法,其特征在于,在步骤(4)中,所述Prepeat是按照以下公式计算获得的:
其中,Rep(P)为探针中的小写字符的数量,Plen为探针的长度。
9.根据权利要求1所述的方法,其特征在于,在步骤(4)中,所述PavgKmerFreq是按照以下公式计算获得的:
其中,j=Plen-15+1,f(i)为探针上第i个15mer的频数,Plen为探针的长度。
10.根据权利要求1所述的方法,其特征在于,在步骤(4)中,所述连续相同的碱基PisPoly为8。
11.根据权利要求1所述的方法,其特征在于,在步骤(5)中,所述第二筛选进一步包括:
(a)判断探针序列的Prepeat是否超过参数设定值,如果是则丢弃该探针;
(b)判断探针序列的PavgKmerFreq是否超过参数设定值,如果是则丢弃该探针;
(c)判断探针序列的PwHits是否超过参数设定值,如果是则丢弃该探针;
(d)判断探针序列的PisPoly属性是否为真,如果是则丢弃该探针,其中,以探针序列含有连续相同的碱基表示PisPoly属性为真,以探针序列不含有连续相同的碱基表示PisPoly属性为假。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技有限公司,未经深圳华大基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610204253.X/1.html,转载请声明来源钻瓜专利网。