[发明专利]一种基于流感病毒刺激的细胞差异基因数据分类系统有效
申请号: | 201410294369.8 | 申请日: | 2014-06-26 |
公开(公告)号: | CN104063459B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 刘文军;李晶;孙清岚;马俊才 | 申请(专利权)人: | 中国科学院微生物研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京纪凯知识产权代理有限公司11245 | 代理人: | 徐宁,孙楠 |
地址: | 100101 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于流感病毒刺激的细胞差异基因数据分类系统,它包括数据处理模块,数据处理模块采集训练样本集数据,依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;数据分类模块读取数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至模型建立模块内建立各数据分类模型;测试数据模块用于接收模型建立模块建立的各数据分类模型以及经数据处理模块处理后的待测样本集数据,测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。本发明可以广泛在数据挖掘系统中应用。 | ||
搜索关键词: | 一种 基于 流感病毒 刺激 细胞 差异 基因 数据 分类 系统 | ||
【主权项】:
一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:它包括数据处理模块、数据分类模块、模型建立模块和测试数据模块;所述数据处理模块采集训练样本集数据,然后依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;在进行数据分割的时候,如果当某样本的基因数据存在缺失值,所述数据处理模块会将此样本单独标记;如果存在缺失值样本比率大于1/2,或缺失值比率超过预先设定的阈值,所述数据处理模块报警,样本将被剔除,申请新样本;所述数据分类模块读取所述数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至所述模型建立模块内建立各数据分类模型;所述测试数据模块用于接收所述模型建立模块建立的各数据分类模型以及经所述数据处理模块处理后的待测样本集数据,所述测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经所述数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类;所述数据分类模块包括第一数据分类子模块、第二数据分类子模块和第三数据分类子模块三个子模块:所述第一数据分类子模块是对同一细胞系内对不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后将该第一数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;所述第二数据分类子模块是对不同细胞系进行相同流感毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后综合该第二数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;所述第三数据分类子模块是对属于不同细胞系在不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,所要考虑因素与所述第一数据分类子模块和第二数据分类子模块相同,数值型因素在不同样本间将被归一化处理,其他影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院微生物研究所,未经中国科学院微生物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410294369.8/,转载请声明来源钻瓜专利网。