[发明专利]基于支持向量机预测胞浆型磷脂酶A2α抑制剂的抑制浓度的方法有效
申请号: | 201110325636.X | 申请日: | 2011-10-24 |
公开(公告)号: | CN102708269A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 卢小泉;姬东琴;周喜斌;陈晶;史海材;刘冬;李亚亚 | 申请(专利权)人: | 西北师范大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京中恒高博知识产权代理有限公司 11249 | 代理人: | 夏晏平 |
地址: | 730070 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 支持 向量 预测 胞浆型 磷脂酶 sub 抑制剂 抑制 浓度 方法 | ||
技术领域
本发明涉及一种基于支持向量机预测胞浆型磷脂酶A2α抑制剂的抑制浓度的方法,属于化学计量学和化学信息学的交叉领域。
背景技术
胞浆型磷脂酶A2α是胞浆型磷脂酶A2的三个亚型(分别为α、β、γ)之一,它可以限制花生四烯酸的产生,此外胞浆型磷脂酶A2α的激活导致了大量的油脂中介体的产生,例如白细胞三烯、前列腺素、血小板活化因子等。由于抑制胞浆磷脂酶A2α的激活有着重要的意义,所以胞浆型磷脂酶A2α抑制剂的开发引起了药物研究者的兴趣。抑制剂分子的抑制浓度实验数据测试困难、费用较高,限制了大量样本的获取,而抑制浓度是评价抑制剂效果的主要指标,因此在抑制剂开发初期,准确预测抑制剂分子的抑制浓度,可以减少后期抑制剂开发的风险,降低研发成本。
支持向量机是基于统计学习理论的一种新型机器学习方法,目的是根据给定的训练样本对某系统输入输出之间依赖关系的估计,使它能够对未知输出做出尽可能准确的预测。
发明内容
本发明的目的是解决现有技术中胞浆型磷脂酶A2α抑制剂的抑制浓度实验数据测试困难的问题,提供一种基于支持向量机准确预测胞浆型磷脂酶A2α抑制剂的抑制浓度的方法。
本发明的目的通过以下技术方案实现,
一种基于支持向量机预测胞浆型磷脂酶A2α抑制剂的抑制浓度的方法,其特征在于,包括如下步骤:
1)样本集的建立:收集胞浆型磷脂酶A2α抑制剂的分子结构;
2)抑制剂分子描述符集的构建:输入胞浆型磷脂酶A2α抑制剂的分子结构,计算出与其对应的分子描述符值,该分子描述符含有若干个分量;
3)简化抑制剂分子描述符集;
4)抑制剂分子描述符集的重新标度:将简化后的抑制剂分子描述符集映射到[-1,+1]区间,映射公式为:
其中,x是抑制剂分子描述符的原始值,xpre是重新标度后的值,xmax和xmin分别对应抑制剂分子描述符的最大值和最小值,ymax和ymin分别对应映射区间最大值和最小值,即+1和-1;
5)将经过步骤2)至4)处理后的样本集随机的划分为训练集和测试集,利用训练集数据,采用10折随机交叉验证方法,对支持向量机模型参数进行优化;
6)用步骤5)所述的训练集和优化后得到的支持向量机参数建立抑制剂分子结构与抑制浓度的关系模型;
7)将步骤5)所述的测试集数据输入步骤6)所建立的关系模型,预测抑制剂的抑制浓度。
进一步,步骤2)所述抑制剂的分子结构的构象处于最低能量状态。
进一步,步骤2)中分子描述符的计算是采用在线药物分子描述符计算软件MODEL完成。
进一步,步骤3)所述的简化过程为:
(a)删除与抑制剂分子结构相关性不大的抑制剂分子描述符;
(b)再删除描述符值为0的抑制剂分子描述符,删除对于所有抑制剂所对应的分子描述符值都相等的描述符;
(c)使用逐步回归方法对剩下的抑制剂分子描述符再进行筛选。
进一步,在步骤5)中,样本集是按4:1的比例随机划分为训练集和测试集。
进一步,步骤5)中所述的支持向量机模型参数优化过程为:
设置容量因子C固定为100;ε不敏感损失函数的ε值变化范围的最大值为1,最小值为-1,变化步长为0.01;核函数参数γ的值变化范围的最大值是1,最小值-1,变化步长为0.01;核函数K选用高斯径向基核函数;
将训练集随机的均分为10组,其中的9组用来建立抑制剂分子结构与抑制浓度的关系模型,剩余的一组用来验证该模型,依次对每一组进行一次验证,将验证后所得到10次结果的准确率的平均值作为准确的估计;
准确率最高时所对应的容量因子C、ε不敏感损失函数的ε值、核函数参数γ的值即为支持向量机模型参数的最优值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北师范大学,未经西北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110325636.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种半导体量子阱光探测器件
- 下一篇:一种基于矿石性质确定矿石入磨粒度的方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用