[发明专利]一种基于流感病毒刺激的细胞差异基因数据分类系统有效
申请号: | 201410294369.8 | 申请日: | 2014-06-26 |
公开(公告)号: | CN104063459B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 刘文军;李晶;孙清岚;马俊才 | 申请(专利权)人: | 中国科学院微生物研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京纪凯知识产权代理有限公司11245 | 代理人: | 徐宁,孙楠 |
地址: | 100101 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 流感病毒 刺激 细胞 差异 基因 数据 分类 系统 | ||
技术领域
本发明涉及一种数据挖掘系统,特别是一种基于流感病毒刺激后对细胞差异基因进行数据分类的系统。
背景技术
分类系统是数据挖掘的主要系统之一,用于提取描述重要数据类别归属的模型或预测未来的数据趋势。一般来说,分类是把数据项映射到其中一个事先定义的类中的学习函数的过程,用基于归纳学习算法得出分类。
一般生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。从生物信息学研究的具体内容上看,生物信息学应包括三个主要部分:新算法和统计学方法研究;各类数据的分析和解释;研制有效利用和管理数据新工具。数据挖掘在生物信息学领域的应用越来越广泛,在生物信息学领域中,科研人员可以通过对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)来对研究领域进行拓展和深化。
在以流感病毒与宿主相互作用的研究背景下,流感的生物信息学研究,已经形成技术资源网络信息化。以生命科学信息、生物技术信息、病毒研究共享信息、生物资源信息为基础,以流感病毒生物信息的标准化、网络化关键技术为手段,将流感差异基因领域相关的生物信息资源大规模高质量收集、整理和加工,同时利用我国现有的转录组学数据,逐步建立规范统一的具有权威性的完善的技术平台和支撑体系,这样为我国生物技术行业突破国外技术壁垒,确保食品、农业、国防安全的可持续发展提供有力保障。
目前没有关于不同毒株流感病毒不同细胞系进行数据挖掘和差异基因比较的数据库,也没有涉及此类的建模方法。
发明内容
针对上述问题,本发明的目的是提供一种针对不同毒株流感病毒刺激不同细胞系后的反应进行研究,建立能够分层次多维度进行细胞差异基因数据分类系统。
为实现上述目的,本发明采取以下技术方案:一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:它包括数据处理模块、数据分类模块、模型建立模块和测试数据模块;所述数据处理模块采集训练样本集数据,然后依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;在进行数据分割的时候,如果当某样本的基因数据存在缺失值,所述数据处理模块会将此样本单独标记;如果存在缺失值样本比率大于1/2,或缺失值比率超过预先设定的阈值,所述数据处理模块报警,样本将被剔除,申请新样本;所述数据分类模块读取所述数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至所述模型建立模块内建立各数据分类模型;所述测试数据模块用于接收所述模型建立模块建立的各数据分类模型以及经所述数据处理模块处理后的待测样本集数据,所述测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经所述数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。
所述数据分类模块包括第一数据分类子模块、第二数据分类子模块和第三数据分类子模块三个子模块:所述第一数据分类子模块是对同一细胞系内对不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后将该第一数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;所述第二数据分类子模块是对不同细胞系进行相同流感毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后综合该第二数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;所述第三数据分类子模块是对属于不同细胞系在不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,所要考虑因素与所述第一分类子模块和第二分类子模块相同,数值型因素在不同样本间将被归一化处理,其他影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块。
所述第一数据分类子模块中考虑的影响因素包括不同流感毒株刺激、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
所述第二数据分类子模块中考虑的影响因素包括不同细胞系、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院微生物研究所,未经中国科学院微生物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410294369.8/2.html,转载请声明来源钻瓜专利网。