[发明专利]基于分层主元深度学习的宏基因组操作分类单元识别方法在审

申请号：	201710490528.5	申请日：	2017-06-25
公开（公告）号：	CN107292124A	公开（公告）日：	2017-10-24
发明（设计）人：	郑灏	申请（专利权）人：	广东国盛医学科技有限公司
主分类号：	G06F19/18	分类号：	G06F19/18;G06F19/24;G06F19/20;G06N3/02
代理公司：	北京科家知识产权代理事务所(普通合伙)11427	代理人：	李雪鹃
地址：	510000 广东省广州市高新技***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于分层深度学习宏基操作分类单元识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于宏基因组的操作分类单元识别技术领域，尤其涉及一种基于分层主元深度学习的宏基因组操作分类单元识别方法。

背景技术

宏基因组学是一门新兴的生物信息和分子生物学研究，其技术避开传统的微生物分离培养方法直接从环境样品中提取总DNA, 为科学家们研究环境微生物的种类和分布打开了一个新的篇章。

操作分类单元（OTU）识别是宏基因组学中的一项核心技术，其目的在于研究宏基因组中的微生物种类和比例。随着最近下一代测序技术的大规模发展，使得深度研究宏基因组学成为可能，好的OTU分类算法更显得尤为重要。

目前比较流行的操作分类单元（OTU）识别分类方法有TETRA和Phylopythia。 TETRA利用四聚体结构序列特征对宏基因组进行OTU识别；Phylopythia利用已知的DNA序列基于支持向量机方法对宏基因组进行OTU识别，但上述两种方法的OTU识别的特异性和敏感性低，不能满足进一步的科学研究分析的需求。

发明内容

基于现有技术存在上述问题，本发明提供一种利用主元分析的特征向量结果去引导神经网络深度学习的初始化，通过Relu开启函数和多次交叉验证学习，对预处理后的宏基因组特征来进行对宏基因组的分层OTU分类的方法，具有特异性和敏感性高的优点。

本发明通过以下技术方案达到上述目的：

一种基于分层主元深度学习的宏基因组操作分类单元识别方法，其包括如下步骤：

步骤S1样品处理：从样品中分离出存在于样品中的微生物，提取微生物中的所有DNA，并对提取的DNA进行高通量测序；

步骤S2数据预处理：对步骤S1中得到的reads、contigs和scaffold进行初步分析，将重复的DNA序列信息和已知的低质量区域的DNA序列信息剔除；

步骤S3基因特征分析：对DNA六聚体结构的混沌序列特征分析提取，确定并获得宏基因组特征信息；

步骤S4主元分析：录入宏基因组特征信息，通过统计检验筛选重要特征信息，对重要特征信息进行主元分析；

步骤S5建立神经网络分类模型：根据步骤S4主元分析结果作为初始化信息建立神经网络分类模型，再通过Relu开启函数f(x) = max(0, x)并进行多次交叉验证学习，对宏基因组进行分层操作分类单元分类。

其中，所述的步骤S2数据预处理还包括步骤S21保守序列分类，判断宏基因组是否存在保守区域序列，若存在保守区域序列则使用BLAST进行操作分类单元分类，不存在保守区域序列则在步骤S2结束后直接执行步骤S3。

其中，所述的步骤S4主元分析的具体操作如下：

对于高纬序列特征向量，{x} X，通过奇异值分解得到一个酉矩阵Θ ∈ R^{M ×M}，把每个高维空间中的x向量通过线性变换映射到 y ≡ [y1,y2,...,y^M]^T，Y = Θx – Θμx；