[发明专利]一种基因转录变异几率及变异方向的算法在审
申请号: | 201810469702.2 | 申请日: | 2018-05-16 |
公开(公告)号: | CN108710784A | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 邵莉;佟艳辉;李鹏 | 申请(专利权)人: | 中科政兴(上海)医疗科技有限公司 |
主分类号: | G06F19/28 | 分类号: | G06F19/28;G06F19/12;G06F19/18 |
代理公司: | 北京华智则铭知识产权代理有限公司 11573 | 代理人: | 陈向敏 |
地址: | 201100 上海市闵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基因转录变异几率及变异方向的算法,海量的高通量数据以及对检测结果的准确性要求使得InDel检测面临着大的挑战,若直接将短序列比对到参考序列上会出现两个问题,一个是映射过程中计算复杂需要很长时间,另一个是当read在参考序列上存在匹配时,read将会映射到其在参考序列的第一个匹配,这通常不是最佳匹配,为了解决以上两个问题,本发明先对滑窗方法产生的参考序列的seed集合进行构建哈希表,然后在比对时利用哈希表对read进行定位先对滑窗方法产生的参考序列的seed集合进行构建哈希表,由于参考序列信息量大,而哈希表耗内存,因此在创建哈希表的同时对序列进行了二进制压缩,使得内存占用大大减少。 | ||
搜索关键词: | 参考序列 哈希表 基因转录 比对 构建 滑窗 算法 匹配 集合 二进制压缩 准确性要求 检测结果 内存占用 映射过程 最佳匹配 短序列 高通量 映射 信息量 内存 检测 创建 挑战 | ||
【主权项】:
1.一种基因转录变异几率及变异方向的算法,其特征在于,操作步骤如下:一.哈希表创建:哈希表是根据关键码值而直接进行访问的数据结构,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度,这个映射函数叫做散列函数,存放记录的数组叫做散列表;二.模拟数据:为了详细的研究每个软件Indel检测结果的正确率、回收率以及基因组的序列特征对检测到结果的影响,需要已知所有变异的具体信息,包括变异的几率、方向以及所处基因组区域的特征,为此本发明利用计算机模拟技术将已知变异加入到参考基因组中生成新基因组序列,再利用模拟测序技术生成测序数据;三.read定位:由于read相对于参考序列来说很短,直接将read比对到参考序列上时,会遇到过早定位到不正确的位点的情况,因此在进行比对之前,我们需要先对read进行定位,为后续的比对选出几个候选的比对位点,为read定位就需要用到构建好的哈希表,在read上选出长度为seed_length的一段连续子序列(seed),先对子序列进行定位得到候选位置,read的长度很短,更不用说作为read的子序列的seed,因此一个seed在定位时往往会定位到参考序列上的多个位置上,造成定位结果不准确,并且本发明十对的是InDel数据,小的InDel在read上的分布是随机的,有时会出现seed覆盖了InDel的位置,而使得seed错误地定位到参考序列上的某个位点,为了提升后续比对中检测InDel的正确性,减少InDel检测结果的假阴性,本发明提出对read使用滑窗方法选出多个子序列分别比对到参考序列上得到各自的候选位点;四.短序列的比对算:针对高通量测序的数据特点,研究人员开发了一些基于短序列的比对算法,这些算法主要引入了Burrows‑Wheeler转换法(Burrows‑Wheeler Transform)或空位种子索引法(Spaced‑Seed Indexing)来实现;五.结果评估:目前很多生物信息学的重要刊物都要求通过真实数据实验和模拟数据实验来对InDel检测方法进行评价,其中对真实数据的InDel检测的基本流程包括:(1)对个体基因组进行测序得到相应的测序片段;(2)将前一步骤中生成的测序片段比对到参考基因组上;(3)在比对结果中寻找异常并进行分析判断InDel;六.最优F值选择Inde1检测软件,模拟染色体变异和序列,利用工具进行Inde1检测,计算每两个软件的联合的F值,通过最优的F值建立一个最优选择的规则;七.深入学习与探讨最优F值的方法是基于软件的一致结果,因而会舍弃仅由单个软件检测到的Inde1,而从模拟数据可知仅由单个软件检测的Inde1接近占整体数量的20%,全部舍弃严重影响回收率,为了能够更加全面的利用所有软件的结果从而获得更高的回收率兼顾平衡性,本发明设计了基于深度学习(Deep Learning)的方法筛选所有软件的检测结果,我们以所有原始数据为训练集,以检测Inde1的所用软件,Inde1的类型,Inde1所处重复序列类型,支持Inde1检测结果的读段数量为训练特征,准确率和召回率为训练目标,利用训练集我们可以训练得到一个使回收率和召回率尽量高的模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科政兴(上海)医疗科技有限公司,未经中科政兴(上海)医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810469702.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于结点关系对的复合功能模块识别方法及系统
- 下一篇:资源分发方法和装置
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用