[发明专利]从fastq文件分离出样本read数据的优化方法有效
申请号: | 202010442647.5 | 申请日: | 2020-05-22 |
公开(公告)号: | CN111767255B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 黄俊松;文晋;邵艳军 | 申请(专利权)人: | 北京和瑞精湛医学检验实验室有限公司 |
主分类号: | G06F16/17 | 分类号: | G06F16/17;G06F16/172;G06F3/06;G06F9/50 |
代理公司: | 北京华专卓海知识产权代理事务所(普通合伙) 11664 | 代理人: | 李巨智 |
地址: | 102206 北京市昌平区生命科*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | fastq 文件 分离 样本 read 数据 优化 方法 | ||
1.一种从fastq文件分离出样本read数据的优化方法,其特征在于,包括:
通过两个线程并发加载包含多个样本的fastq文件,构造read数据并输出;
从所述read数据中解析出barcode对,根据所述barcode对与样本编号的对应关系识别所述read数据的所属样本,并将所述read数据插入其所属样本的read缓存;
通过异步样本线程池中的异步样本线程,将所述read缓存中的read数据写入对应样本的输出fastq文件中。
2.根据权利要求1所述的方法,其特征在于,所述通过两个线程并发加载包含多个样本的fastq文件,构造read数据并输出,包括:
分配第一线程、第二线程和一个数据块队列,设置该数据块队列的最大数据项个数限制以及数据块的大小;
在所述第一线程中,向对象内存复用池发出分配内存请求,等待分配一个所述数据块大小的数据块;
在所述第一线程中,按照所述数据块的大小读取所述fastq文件,将读取到的数据放到所述分配的数据块中,判断所述数据块队列是否达到所述最大数据项个数限制,如果是,则进入等待状态,直至所述数据块队列的数据项个数小于所述最大数据项个数限制,将所述数据块插入所述数据块队列的队尾;否则,将所述数据块插入所述数据块队列的队尾;
继续判断所述fastq文件是否读取完毕,如果已读取完毕,则设置数据块队列结束标记,并结束第一线程;如果未读取完毕,则返回等待分配数据块,继续加载fastq文件;
在所述第二线程中,判断所述数据块队列是否为空且设置结束标记,如果所述数据块队列为空且设置结束标记,则结束第二线程;如果所述数据块队列为空且没有设置结束标记,则进入等待状态,直到所述数据块队列不为空或者被设置结束标记为止;如果所述数据块队列不为空,则从所述数据块队列的头部取出数据块,得到fastq块数据;
顺序地将所述fastq块数据进行换行解析,得到若干个read数据,并按次序逐个输出;
在所述数据块被消费后,向对象内存复用池发出释放内存请求。
3.根据权利要求2所述的方法,其特征在于,所述read数据存储于一块连续内存内,包括一个起始位置、一个结束位置和三个索引值,三个索引值设置于所述起始位置与所述结束位置之间,用于分别指向三个换行符的位置;所述三个换行符将所述起始位置与所述结束位置之间的数据分割成四行数据,其中第一行数据为信息行、第二行数据为序列行、第三行数据为注释行、第四行数据为质量行;所述换行符用于触发数据换行操作。
4.根据权利要求1所述的方法,其特征在于,所述从所述read数据中解析出barcode对,包括:
将所述read数据的第二行的前8个字符作为所述read数据的barcode;
根据所述barcode构造barcode对;
其中,在单端测序情况下,所述barcode为一个,对所述barcode进行复制,得到两个相同的barcode作为所述barcode对;
在双端测序情况下,所述barcode为两个,将两个barcode作为所述barcode对。
5.根据权利要求1所述的方法,其特征在于,所述根据所述barcode对与样本编号的对应关系识别所述read数据的所属样本,包括:
将所述read数据中的barcode进行分组,得到若干个barcode分组;每个barcode分组包含若干个互不相同的barcode,且任意barcode与其互为barcode对的barcode在同一分组中,得到barcode对与barcode分组的唯一对应关系;
定义barcode分组与样本编号的唯一对应关系,得到barcode对与样本编号的唯一对应关系;
根据barcode对与样本编号的唯一对应关系,识别出barcode对对应的read数据的所属样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京和瑞精湛医学检验实验室有限公司,未经北京和瑞精湛医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010442647.5/1.html,转载请声明来源钻瓜专利网。