[发明专利]一种基于组和图稀疏化的基因序列分类方法有效
申请号: | 201310464401.8 | 申请日: | 2013-09-30 |
公开(公告)号: | CN103473484A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 戴新宇;付强 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 稀疏 基因 序列 分类 方法 | ||
1.一种基于组和图稀疏化的基因序列分类方法,其特征在于,包括以下步骤:
步骤一,对基因序列的特征空间进行分组:用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间,向量的每一维代表特征空间中的一个特征,并且把整个特征空间划分成互不相交的两个以上的组,每一个基因序列包括一个类标;
步骤二,在两个以上的组之间建立一个有向无环图,并且为有向无环图上的每一条边给定一个代价值;
步骤三,利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
2.根据权利要求1中所述的方法,其特征在于,步骤一包括以下步骤:
对于训练集中的基因序列dj=c1,c2,…cjj…,ck,其中cjj=)A,C,G,T}为基因序列dj中的第jj个碱基,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶,jj=1,2,…k,k表示基因序列dj的总长度;对于基因序列dj,特征空间中的一个特征如果出现在基因序列dj中,则将这个特征对应的向量中的维度记为1,否则为0;由此基因序列dj的稀疏表示的向量形式xj为:
xj=(w1,j,w2,j,...,wm,j),
m表示特征空间的总数,wi,j表示特征的值,i∈{1,2,......m},i表示特征的序号,wi,j表示对应的特征是否存在于基因序列中。
3.根据权利要求2所述的方法,其特征在于,步骤一包括以下步骤:
根据模板来对特征空间中的特征进行分组,把特征空间划分成互不相交的组;
所述模板是由碱基的位置组成的,也就是集合{1,2,...,k}中的元素组成的;根据组成模板的位置的个数,模板分为对应的阶数;一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,n的取值范围是1≤n≤k的整数,对于长度为k的基因序列,n阶模板的个数就是从k个里面选择n个的组合数;模板的实例是该模板下所有可能组合的碱基序列;每一个实例表示一个特征,所有模板的所有实例组成整个特征空间;模板的个数由下面的公式来计算:
其中nt表示一个正整数,表示使用的模板中的最大的阶数,nt的取值范围是1≤nt≤k的整数;
一个模板下的全部实例对应的特征组成一个组,把特征空间划分为互不相交的两个以上组,组的数目与模板数目相同;
特征空间中的划分记为π={B1,…,Bii...,Bq},π表示所有组的集合,q表示组的个数,ii表示组号,Bii表示特征空间I={1,2,...,m}上的一个子集,也就是一个组,I表示特征空间上的特征的序号的集合,并且满足条件:
4.根据权利要求1中所述的方法,其特征在于,步骤二包括以下步骤:
在组与组之间建立一个有向无环图G=(V,E),V表示图的节点集合,图上的每一个节点代表一个组,E表示图的边集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310464401.8/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用