[发明专利]基于芯片检测DNA数据的性别判断方法有效
申请号: | 201910266630.6 | 申请日: | 2019-04-03 |
公开(公告)号: | CN110033828B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 范操琦 | 申请(专利权)人: | 北京各色科技有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 张朝元 |
地址: | 100015 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 芯片 检测 dna 数据 性别 判断 方法 | ||
本发明公开了一种基于芯片检测DNA数据的性别判断方法,包括以下步骤:选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵,筛选区分度大的M个位点;对M个位点中的每一个位点,建立逻辑回归模型,自变量为DNA检测红荧光和DNA检测绿荧光数值,因变量取值0或1,代表男性和女性,得到M个回归模型并保存;预测一个新样本时,通过M个位点的逻辑回归模型,得到M个取值在0到1之间的预测值,按照逻辑回归预测值的概率解释,计算最终的概率。该性别判断方法结合X和Y两类染色体的情况,通过机器学习的方法,充分量化,性别判断结果为0‑1区间的数值,能够兼容多种数据情况,针对性别做出更丰富的判断。
技术领域
本发明涉及DNA检测技术领域,具体来说,涉及一种基于芯片检测DNA数据的性别判断方法。
背景技术
基于芯片检测DNA数据的性别判断,一般根据DNA数据的X和Y染色体的分型情况。常见的方法有两种:1)只通过X染色体的分型数据,大多数情况下,女性有2条X染色体,分型数据有纯合子、杂合子2种类型,男性有1条X染色体,分型数据只有纯合子1种类型,一般可以通过统计某样本X染色体分型数据的纯合率或者杂合率,确认性别;2)只通过Y染色体的分型数据,大多数情况下,女性没有Y染色体,不该出现Y染色体数据,男性有1条Y染色体,分型数据有纯合子1种类型,一般可以通过统计某样本是否有Y染色体数据,确认性别。
以上2种方法能够判断大多数情况,但是很多异常情况无法识别。比如某些人存在X染色体或Y染色体的异常,会影响判断准确性,此外,以上2种方法是基于传统的统计学,根据经验进行一般判断,无法做出更精准的预测。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于芯片检测DNA数据的性别判断方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于芯片检测DNA数据的性别判断方法,包括以下步骤:
(1)选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵;
(2)将红绿荧光强度标准化,其中GrnM为每个样本绿荧光的数值,RedM为每个样本红荧光的数值,GrnM*为每个样本绿荧光的标准化数值,RedM*为每个样本红荧光的标准化数值:
GrnM* = GrnM / mean(GrnM)(每个样本某个位点上绿荧光数值除以所有样本该位点绿荧光数值的均值);
RedM* = RedM / mean(RedM)(每个样本某个位点上红荧光数值除以所有样本该位点红荧光数值的均值);
引入两个新的矩阵:
AbsM = (GrnM^2 + RedM^2)^(0.5)(每个样本某个位点上绿荧光数值的平方加上该样本该位点红荧光数值的平方,然后开方);
SumM = GrnM + RedM(每个样本某个位点上绿荧光数值加上该样本该位点红荧光数值);
(3)筛选区分度大的M个位点:我们认为,男女信号的可划分性,基本蕴含在上面四个参数中,因此对步骤(2)中的四个矩阵的每一行做t检验,因变量为0(男)或1(女),这样对每一个位点都得到4个p值,将每一种参数下p值前X小的位点做并集,得到M个位点;
(4)根据步骤(3)筛选出的M个位点,建立逻辑回归模型:对M个位点中的每一个位点,建立逻辑回归模型,自变量为红荧光和绿荧光数值,因变量取值0(男)或1(女),这样总共得到M个回归模型,将其保存;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京各色科技有限公司,未经北京各色科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910266630.6/2.html,转载请声明来源钻瓜专利网。