[发明专利]基于公共子序列的基因芯片表达数据的OPSM挖掘方法有效
申请号: | 201410323563.4 | 申请日: | 2014-07-08 |
公开(公告)号: | CN104156635B | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 廖政玲;赵洪雅;赵晓荣;周旋;李美航;朱晓晴;罗洁;罗桂银;吴笛;薛云;蔡倩华;胡晓晖;李铁臣 | 申请(专利权)人: | 华南师范大学;深圳职业技术学院 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 江裕强,何淑珍 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 公共 序列 基因芯片 表达 数据 opsm 挖掘 方法 | ||
1.基于公共子序列的基因芯片表达数据的OPSM挖掘方法,其特征在于包括如下步骤:
(1)输入基因芯片数据,对数据进行预处理;具体是:首先输入基因芯片数据,对数据进行预处理,即把一个原始数据矩阵A的每一行都做升序排序,它们的数值大小用它们的列标号代替,得到列置换矩阵;在数据预处理阶段,将每一个基因在每个芯片试验中的表达量按照从小到大的顺序排列,而且用相应的芯片试验编号来代替,即对于原始矩阵中的每一行,把所有的值按升序排列,用对应的列标号替代原来的值,使原始矩阵转化为一个序列数据集;
(2)获得基因芯片数据中任意两行之间的公共子序列;对所述列置换矩阵,应用改进的CalACS方法得到任意两行之间的公共子序列,具体是:对于序列长度分别为|A|,|B|的序列A和B,CalACS的时间和空间复杂度均为O(|A|×|B|),令A和B序列的长度相同,即|A|=|B|,以变量NA[i]来存储以A序列中第i个元素Ai结尾的A,B两个序列的公共子序列集合;A,B的公共子序列中任意两个元素必须在A序列和B序列中保持着一样的前后次序关系,假设在A序列中Aj的位置是在Ai之前,若元素Aj在B序列中仍然排在元素Ai之前,则表示Ai和Aj在B中仍然保持着与A中一致的先后位置关系,因此以Aj结尾的公共子序列集合中必然包含原来以Aj结尾的公共子序列集合中的每一项再拼接上Ai后得到的全部新序列集合,在此基础上构造出全部NA[i],而A和B的所有公共子序列集合就是所有NA[i]的并集;
(3)生成长度为2的候选集树;
(4)在长度为2的候选集树上进行剪枝操作即把不满足频繁条件的枝条删除,得到2‐频繁树;
(5)将2‐频繁树拼接成3‐候选集树,并经过剪枝操作得到3‐频繁树;具体是:按照Apriori原则将步骤(2)中得到的长度为3的公共子序列拼接在步骤(4)中得到2‐频繁树上,从而建立3‐候选集树,再进行与步骤(4)中一样的剪枝操作得到3‐频繁树;
(6)依次重复上述操作,将k‐频繁树上进行拼接成k+1‐候选集树,并经过剪枝操作得到k+1‐频繁树,直到不能产生频繁树为止,其中k的取值范围为2到原始基因芯片数据矩阵的列数减1,最终得到所有列模式长度且满足行阈值的OPSM。
2.根据权利要求1所述的基于公共子序列的基因芯片表达数据的OPSM挖掘方法,其特征在于步骤(3)具体是:使用前缀树的数据结构来存储和遍历步骤(2)中得到的所有长度为2的公共子序列,生成长度为2的候选集树。
3.根据权利要求1所述的基于公共子序列的基因芯片表达数据的OPSM挖掘方法,其特征在于步骤(4)具体是:在步骤(3)得到的长度为2的候选集树上进行剪枝操作,根据设定的行阈值将不满足条件的枝条删除,得到2‐频繁树,并遍历2‐频繁树上的每一条枝,输出双聚类结果。
4.根据权利要求1所述的基于公共子序列的基因芯片表达数据的OPSM挖掘方法,其特征在于步骤(6)中每一次都拼接得到列长度更长的候选集树,并通过将不满足频繁条件的枝条删除,得到频繁树,并遍历频繁树上的每一条枝,输出双聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学;深圳职业技术学院,未经华南师范大学;深圳职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410323563.4/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用