[发明专利]基于多标记学习的抗菌肽活性预测方法在审
申请号: | 201410712399.6 | 申请日: | 2014-11-28 |
公开(公告)号: | CN104484580A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 周丰丰;王普;肖绚;葛瑞泉;刘记奎 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 吴平 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标记 学习 抗菌 活性 预测 方法 | ||
1.一种基于多标记学习的抗菌肽活性预测方法,包括以下步骤:
提取肽序列对应的氨基酸成分,并根据所述氨基酸成分获取对应的矩特征向量x,其中,所述矩特征向量x用于描述肽序列各个角度的形状特点;
采用多标记学习算法并根据公式W=(XTX)-1XTY计算最小化变换矩阵W,其中,设x的类标签向量为y=[y1,y2,…,yc]T;最小化变换矩阵W的公式为min||XW-Y||;c为种类标签数,X表示训练样本矩阵,Y表示训练样本对应的类标记矩阵,每个行向量对应一个样本;则对于待测样本x’,其对各标记的输出为f(x,y)=xW;
根据各标记输出f(x,y)=xW获取预测类标签向量集合h(x)={y|f(x,y)≥0,y∈{1,2,...,c}}。
2.根据权利要求1所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,所述提取肽序列对应的氨基酸成分和矩特征向量x的步骤包括:
根据氨基酸的物理化学属性指标对氨基酸序列作数字编码;
将氨基酸序列的每个氨基酸残基意义对应转换成数值序列;
根据所述数值序列对肽序列的整体、N端和C端计算矩特征向量x,其中,N端指肽序列的钱5个氨基酸,C端指肽序列的后5个氨基酸。
3.根据权利要求1或2所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,所述矩特征向量x包括1阶原点矩、2阶中心矩、3阶中心矩和4阶中心矩。
4.根据权利要求1所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,所述类标签向量为y=[y1,y2,...,yc]T中yi=1表示样本x具有类标签i;yi=-1表示样本x不具有类标签i。
5.根据权利要求1所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,判断XTX是否可逆,若否,则用XTX的广义逆替代。
6.根据权利要求1所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,还包括采用遗传算法对所述矩特征向量x进行优化。
7.根据权利要求6所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,所述采用遗传算法对所述矩特征向量x进行优化的步骤包括:
选取种群规模;
对染色体编码;
选取适应度函数fitness=海明损失+排序损失+1/10000*特征数目;
采用精英选择,其中,所述精英选择为上一代种群中最好的2个个体直接带入下一代;
选取杂交比例0.8;
当适应度函数值基本不变时,终止进化,选取此时对应的矩特征向量集合。
8.根据权利要求7所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,所述种群进化到150代数,所述适应度函数数值基本不变。
9.根据权利要求1-8任意一项所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,采用海明损失、子集准确率、排序损失、覆盖范围、一位错误及平均查准率对所述基于多标记学习的抗菌肽活性预测方法进行评测。
10.根据权利要求9所述的基于多标记学习的抗菌肽活性预测方法,其特征在于,采用十折交叉验证评测所述基于多标记学习的抗菌肽活性预测方法,并将计算结果取20次交叉验证的均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410712399.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用