[发明专利]一种基于支持向量机的microRNA靶位点预测的方法无效
申请号: | 200910155291.0 | 申请日: | 2009-12-10 |
公开(公告)号: | CN101710362A | 公开(公告)日: | 2010-05-19 |
发明(设计)人: | 陈铭;何志嵩;王匡宇;白琳 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;C12Q1/68 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于支持向量机的microRNA靶位点预测的方法。步骤包括:1)训练数据集的建立,包括278个正样本和194个负样本;2)特征集的构建,每个训练数据集的样本都被一个特征向量所表示,特征向量涵括miRNA-靶位点调控对的各方面信息,分为六部分共128个特征;3)简化特征集选取,使用Weka3中的一系列特征选取算法,筛选出64个特征;4)结果评价,对基于特征集、简化特征集和miTarget特征集的分类器的分类能力进行比较;5)miRNA靶基因的功能注释。本发明的意义在于构建了一个引入近年被发现与miRNA靶位点结合相关的特征,开发出一套新的miRNA靶位点预测方法,并运用特征选取的手段对该预测器进行优化,最后比较检验的结果表明,所选用的新特征对miRNA靶位点预测确有帮助。 | ||
搜索关键词: | 一种 基于 支持 向量 microrna 靶位点 预测 方法 | ||
【主权项】:
一种基于支持向量机的microRNA靶位点预测的方法,其特征在于,包括如下步骤:1)训练数据集的建立:训练数据集包括正样本278个,其中果蝇样本有83个,人样本有195个;负样本194个,其中果蝇样本有30个,人样本有164个;2)特征集的构建:每个训练数据集的样本都将被一个特征向量所表示,这个特征向量涵括了miRNA-靶位点调控对的信息,特征向量包括128个特征:128个特征划分为结构特征、热力学特征、基于位置特征、核苷酸组成特征、二级结构特征、基于模式特征六部分,所有样本的特征向量构成了特征集;3)简化特征集选取:使用Weka3中的特征选取算法,基于特征集分别进行了特征选取,特征选取算法包括:卡方属性评价、过滤属性评价、增加比率属性评价、信息增益属性评价、OneR属性评价、RelieF属性评价、支持向量机属性评价、对称原理不对称属性评价8种算法;4)结果评价:对基于特征集、简化特征集和miTarget特征集的分类器的分类能力采用完全数据集十倍交叉检验,或者以人的数据集作为训练集、果蝇的数据集作为测试集,或者以果蝇的数据集作为训练集、人的数据集作为测试集三种方法进行测试,而对miRNA-靶位点预测结果则使用受试者作业特征分析,综合成功率,二维混淆矩阵及真阳性率、假阳性率、真阴性率、假阴性率三种比较方法进行评价。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910155291.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种贯流风叶中节
- 下一篇:防爆轴流式通风机稀油自动润滑系统
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用