[发明专利]基于芯片检测DNA数据的性别判断方法有效
申请号: | 201910266630.6 | 申请日: | 2019-04-03 |
公开(公告)号: | CN110033828B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 范操琦 | 申请(专利权)人: | 北京各色科技有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 张朝元 |
地址: | 100015 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于芯片检测DNA数据的性别判断方法,包括以下步骤:选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵,筛选区分度大的M个位点;对M个位点中的每一个位点,建立逻辑回归模型,自变量为DNA检测红荧光和DNA检测绿荧光数值,因变量取值0或1,代表男性和女性,得到M个回归模型并保存;预测一个新样本时,通过M个位点的逻辑回归模型,得到M个取值在0到1之间的预测值,按照逻辑回归预测值的概率解释,计算最终的概率。该性别判断方法结合X和Y两类染色体的情况,通过机器学习的方法,充分量化,性别判断结果为0‑1区间的数值,能够兼容多种数据情况,针对性别做出更丰富的判断。 | ||
搜索关键词: | 基于 芯片 检测 dna 数据 性别 判断 方法 | ||
【主权项】:
1.一种基于芯片检测DNA数据的性别判断方法,其特征在于,包括以下步骤:(1)选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵;(2)将 DNA 检测得到的红绿荧光强度标准化,其中GrnM为每个样本绿荧光的数值,RedM为每个样本红荧光的数值,GrnM*为每个样本绿荧光的标准化数值,RedM*为每个样本红荧光的标准化数值:GrnM* = GrnM / mean(GrnM),即每个样本某个位点上绿荧光数值除以所有样本该位点绿荧光数值的均值,RedM* = RedM / mean(RedM),即每个样本某个位点上红荧光数值除以所有样本该位点红荧光数值的均值;引入两个新的矩阵:AbsM = (GrnM^2 + RedM^2)^(0.5),即每个样本某个位点上绿荧光数值的平方加上该样本该位点红荧光数值的平方,然后开方,SumM = GrnM + RedM,即每个样本某个位点上绿荧光数值加上该样本该位点红荧光数值;(3)筛选M个位点:对步骤(2)中的每个矩阵的每一行做t检验,因变量为0或1,代表男性和女性,对每一个位点都得到4个p值,将每一种参数下p值前X小的位点做并集,得到M个位点;(4)根据步骤(3)得到的M个位点,建立逻辑回归模型:对M个位点中的每一个位点,建立逻辑回归模型,自变量为红荧光和绿荧光数值,因变量取值0或1,得到M个回归模型并保存;(5)性别判断结论呈现:预测一个新样本时,通过步骤(4)建立的M个位点的逻辑回归模型,得到M个取值在0到1之间的预测值,将这个长度为M的矩阵命名为values,按照逻辑回归预测值的概率解释,计算最终的概率score:a)log_ratios = log(values / (1 ‑ values)),即取以自然常数e为底,预测值除以 1 减去预测值的对数;b)log_ratio = mean(log_ratios),即取上述 a)得到概率的平均值;c)score = exp(log_ratio) / (1 + exp(log_ratio)),即自然常数e的log_ratio次方,除以 1 加上自然常数e的log_ratio次方,score是0‑1之间的数值,为样本是女性的概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京各色科技有限公司,未经北京各色科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910266630.6/,转载请声明来源钻瓜专利网。