[发明专利]一种肝癌的早期诊断设备在审
申请号: | 201811632714.9 | 申请日: | 2018-12-29 |
公开(公告)号: | CN110760580A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 杨楚虎;张琼 | 申请(专利权)人: | 杭州翱锐生物科技有限公司 |
主分类号: | C12Q1/6886 | 分类号: | C12Q1/6886;C12Q1/6869 |
代理公司: | 33283 杭州天昊专利代理事务所(特殊普通合伙) | 代理人: | 向庆宁 |
地址: | 310018 浙江省杭州市经*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 肝癌 读取 计算模块 权重数据 全基因组 拷贝数 存储 肝癌发生 权重计算 血液样本 游离核酸 早期诊断 统计学 诊断 | ||
1.一种早期诊断肝癌的设备,该设备包括:
用于读取或者存储来自主体的血液样本中游离核酸全基因组的拷贝数的数据的模块;
用于读取或者存储与肝癌发生的全基因组权重数据的模块;
计算模块,该计算模块让所述的权重数据结合所述的拷贝数数据进行统计学权重计算,从而获得所述的主体是否是肝癌的结果。
2.根据权利要求1所述的设备,其中,所述的游离核酸为游离DNA。
3.根据权利要求1所述的设备,其中,所述的全基因组权重数据是通过统计学方法分析肝癌公共数据库而计算获得的。
4.根据权利要求1所述的设备,其中,所述的游离核酸的数据为游离DNA被扩增后进行基因测序获得的数据。
5.根据权利要求1所述的设备,其中,该设备包括存贮含有权重信息的数学模型的模块,所述的计算模块通过权重数学模型来计算。
6.根据权利要求5所述的设备,其中,所述的权重数学模型为随机森林学习模型,该模型为其中,B是随机森林中权重二叉数的个数,f(x)是第b个权重二叉数对一个样本输入矩阵x的预测结果;的范围在0到1之间,其大小代表具有肝癌的可能性;若大于预先设定的阈值,则判断为肝癌,若果若小于于预先设定的阈值,则判断为非肝癌。
7.根据权利要求6所述的设备,其中,所述的建立有权重的随机森林机器学习模型的方法包括:
生成随机森林的输入数据矩阵,其中,列代表每个区域的测序深度,行代表每个样本,或者,行代表每个区域的测序深度,列代表每个样本。
8.根据权利要求7所述的设备,其中,所述的建立有权重的随机森林机器学习模型的方法还包括:建立有权重的二叉树,其中,驱动基因的潜能作为权重来影响二叉树的建立。
9.根据权利要求7所述的设备,其中,所述的建立有权重的随机森林机器学习模型的方法还包括:建立二叉树的分割变量,其中该分割变量至少由第一和第二因素确定,其中第一因素是来自样本的全基因组拷贝数的测序数据;第二因素就是来自公共数据库计算分析而获得的全基因组的权重数据。
10.根据权利要求9所述的设备,其中,第一因素是来自样本的全基因组的测序数据;第二因素是对应的肝癌的驱动基因的潜能的权重数据,如果第一因素与第二因素结合分析的结果最大,则该特征变量作为二叉树的分割变量。
11.根据权利要求10所述的设备,所述的特征变量是通过建立常规随机森林里的一个二叉树来确定的,其中二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定,该特征变量可以将肿瘤和非肿瘤分开。
12.根据权利要求10所述的设备,所述的驱动基因作为权重的具体公式为:
计算根据权重校正后的Gini指标,即Gini_校正(D,A)=Gini(D,A)*penalty(A),其中D是训练集里癌和非癌样本的标记数据,A是一个候选分割变量;其中p1,p2是非癌症和癌的比例,满足其中D是训练集里所有的样本,D1和D2是用A作为变量变量将D分割到两个亚组,D1是A变量小于某个阈值的样本,D2是A变量大于此阈值的样本;|D1|,|D2|和|D|是对应样本数;penalty(A)是对候选分割变量的惩罚,驱动基因权重越大惩罚越小,校正后的Gini(D,A)越小,候选分割变量被选上的可能性越大。
13.根据权利要求1所述的设备,其中,全基因组权重数据是通过贝叶斯非参统计模型量化每个基因是肝癌驱动基因的潜力大小而获得的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州翱锐生物科技有限公司,未经杭州翱锐生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811632714.9/1.html,转载请声明来源钻瓜专利网。