[发明专利]一种基于网络分析的群lasso特征分群方法在审
申请号: | 201510703382.9 | 申请日: | 2015-10-26 |
公开(公告)号: | CN105335626A | 公开(公告)日: | 2016-02-17 |
发明(设计)人: | 李钧涛;王雅娣;丁莹;李明;陈留院;董文朋;穆晓霞 | 申请(专利权)人: | 河南师范大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 新乡市平原专利有限责任公司 41107 | 代理人: | 路宽 |
地址: | 453007 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络分析 lasso 特征 分群 方法 | ||
技术领域
本发明属于生物工程技术领域,主要涉及生物信息学和生物数据挖掘,具体涉及一种基于网络分析的群lasso特征分群方法。
背景技术
生物工程是以生物学(主要是基因遗传学、细胞学和生物化学)的理论为基础,结合机械、电子计算机、化工等现代工程技术,充分运用分子生物学的最新成就,自觉操纵遗传物质,再对这些改造的工程细胞株进行培养,通过细胞增殖以生产大量有用代谢产物或发挥它们独特生理功能的一门新兴技术。其广泛的用途主要应用于医药卫生、食品轻工、农牧渔业、能源化工、冶金工业、环境保护等诸多方面。生物工程技术的合理应用将为解决人类面临的粮食、健康、环境、能源等重大问题开辟广阔的前景。
生物工程与计算器微电子技术、新材料、新能源等被列为21世纪科学技术的核心。由于生命科学和计算机科学的有机结合,从而可以通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
生物工程着眼于分子层面,是对基因进行改造和重组而后进行培养增殖。对于改造后的细胞植株要想快速培养应用于生物医药时,首先应从海量未知基因选择出并找到影响细胞增殖的相关基因,这也是整个工程中至关重要的一步。另外,对于基因进行有效地分群,了解其生物意义,还可以开发出基于这些基因的价格低廉的疾病基因芯片。
目前为止基因的选择方法可以分为:滤波法、包装方法、内含法。虽然这些方法成功地应用于联合的基因选择和微阵列分类,但是却不能较好的将其应用于较多的基因分群之中,也不能揭示出基因与基因之间的相互作用。为了成群地选择特征的同时并能够进行精度预测,2006年Yuan和Lin提出能按照预先分好的群进行基因选择的群lasso,Meleretal将其扩展到逻辑斯谛回归。为了能够同时产生分群的稀疏性和群内稀疏性,Simonetal提出了稀疏群lasso而且通过增广坐标下降算法发展了一个算法来拟合这个模型;Vincent等人将它拓展到了多项式稀疏群lasso和发展了求解算法。尽管群lasso,稀疏群lasso和它们的拓展已经成功地应用到微阵列分类和基因选择,但是它们高度赖于群的划分。传统的群lasso模型及其推广模型大多采用数据集中编写程序进行随机自动分群,常常出现分群只与数据有关,与实际应用背景无关(无生物学意义)。从生物学角度来说,很容易根据基因调控网络将基因成群地划分,然而对于复杂的生物过程却很难探测基因通路并构建调控网络。因此,对群lasso及其推广模型进行特征分群是生物信息学、计算生物学等领域的一个急需解决的挑战性问题。
发明内容
本发明的目的是克服上述方法中存在的缺陷,提出了一种具有可靠性的基于网络分析的群lasso及其推广模型的分群方法,以构建分层聚类树并利用动态树剪切算法识别出影响细胞增殖的重要变量模块,并根据精简的网络模块对特征进行分群,进而简化特征分群难度并提高模型进行特征选择的可靠性。
本发明为实现上述目的采用如下技术方案,通过对实验数据进行预处理将其分为两个数据集并通过相似性测量和幂邻接函数构建出邻接矩阵;然后利用差异性测量分别构建出两类样本的分层聚类树并利用动态剪切树算法,计算出不同数据样本中的重要模块;而后用负样本模块来简化正样本模块,得到精简模块;最后根据特征变量分群,构建稀疏群lasso模型。其实现步骤如下:
(1)对于具体实验所得到的“小样本,超高维”数据,为了降低数据运行程序的负担,依据实际实验背景,将原始数据中的异常数据,小关联数据筛选出来去掉,从而得到分群预处理数据集X=[Xhj]m×n;
(2)根据分类任务的类别,将分群预处理数据集X分为两类,即X+,X-;通过相似性测量和幂邻接函数,分别构建出邻接矩阵
(3)将邻接矩阵转化为拓扑重叠矩阵,利用差异性测量分别构建正样本和负样本的分层聚类树;
(4)利用动态剪切树算法,分别计算出正样本中的重要模块和负样本中的重要模块;
(5)根据实际的实验背景,利用负样本中的模块来简化正样本中的模块,得到q个精简模块;根据精简后的网络模块,把相应的变量分为特征群,余下的每一个变量分别看作一个特征群,进而完成特征分群任务;
(6)根据上述分群策略将特征变量分成q个群,并构建稀疏群lasso模型:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南师范大学,未经河南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510703382.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用