[发明专利]一种基于组和图稀疏化的基因序列分类方法有效

申请号：	201310464401.8	申请日：	2013-09-30
公开（公告）号：	CN103473484A	公开（公告）日：	2013-12-25
发明（设计）人：	戴新宇;付强	申请（专利权）人：	南京大学
主分类号：	G06F19/24	分类号：	G06F19/24
代理公司：	江苏圣典律师事务所 32237	代理人：	胡建华
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于稀疏基因序列分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于组和图稀疏化的基因序列分类方法，其特征在于，包括以下步骤：

步骤一，对基因序列的特征空间进行分组：用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间，向量的每一维代表特征空间中的一个特征，并且把整个特征空间划分成互不相交的两个以上的组，每一个基因序列包括一个类标；

步骤二，在两个以上的组之间建立一个有向无环图，并且为有向无环图上的每一条边给定一个代价值；

步骤三，利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。

2.根据权利要求1中所述的方法，其特征在于，步骤一包括以下步骤：

对于训练集中的基因序列d_j=c₁,c₂,…c_jj…,c_k，其中c_jj=)A,C,G,T}为基因序列d_j中的第jj个碱基，A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶，jj=1,2,…k，k表示基因序列d_j的总长度；对于基因序列d_j，特征空间中的一个特征如果出现在基因序列d_j中，则将这个特征对应的向量中的维度记为1，否则为0；由此基因序列d_j的稀疏表示的向量形式x_j为：

x_j=(w_1,j,w_2,j,...,w_m,j)，

m表示特征空间的总数，w_i,j表示特征的值，i∈{1,2,......m}，i表示特征的序号，w_i,j表示对应的特征是否存在于基因序列中。

3.根据权利要求2所述的方法，其特征在于，步骤一包括以下步骤：

根据模板来对特征空间中的特征进行分组，把特征空间划分成互不相交的组；

所述模板是由碱基的位置组成的，也就是集合{1,2,...,k}中的元素组成的；根据组成模板的位置的个数，模板分为对应的阶数；一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的，n的取值范围是1≤n≤k的整数，对于长度为k的基因序列，n阶模板的个数就是从k个里面选择n个的组合数；模板的实例是该模板下所有可能组合的碱基序列；每一个实例表示一个特征，所有模板的所有实例组成整个特征空间；模板的个数由下面的公式来计算：

Ck1+Ck2+···Cknt,]]>