[发明专利]预测蛋白质RNA结合物热点的方法、系统及存储介质在审

申请号：	201810299939.0	申请日：	2018-04-04
公开（公告）号：	CN108563922A	公开（公告）日：	2018-09-21
发明（设计）人：	邓磊;潘玉亮	申请（专利权）人：	中南大学
主分类号：	G06F19/22	分类号：	G06F19/22
代理公司：	长沙朕扬知识产权代理事务所(普通合伙) 43213	代理人：	何湘玲
地址：	410000 ***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标签预测结合能存储介质结合物算法蛋白质样本半监督学习算法神经网络算法生物信息技术构造分类器随机数算法有效数据集加权平均热点数据生物实验特征集合投票结果预测结果负样本训练集正样本分类投票传播
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种预测蛋白质RNA结合物热点的方法，其特征在于，包括：

步骤S1、构建蛋白质RNA复合物的初始数据集；

步骤S2、对所述初始数据集进行过滤，筛选出蛋白质RNA结合面上的残基，并过滤掉蛋白质内部的残基、以及蛋白质表面残基；所述蛋白质RNA结合面上的残基的筛选条件包括：

条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基的溶剂可及性值的差值大于

条件2、单个蛋白质链的各个残基的溶剂可及性值除以相应残基最大的溶剂可及性值的比例大于5％；

步骤S3、对所筛选出的蛋白质RNA结合面上的残基所对应的复合物进行去同源处理，得到用于分类的有效数据集，所述有效数据集包括已明确标签的一类数据和待明确标签的二类数据，在所述一类数据中，将结合能大于等于1.0的数据作为正样本的热点数据，结合能小于1.0的作为负样本数据；

步骤S4、根据所述一类数据，采用半监督学习算法中的标签传播算法对所述二类数据进行标签值预测，并将预测后的数据归入训练集，所述训练集还包括部分所述一类数据；同时，从所述一类数据中抽取部分数据构建成测试集；所述训练集和测试集不存在交集且都含有正样本和负样本；

步骤S5、以序列特征、结构特征、残基相互作用网络特征和溶剂暴露特征作为特征集，将同一样本的各个特征值整合到一条特征序列中组合构造成样本的特征集合；

步骤S6、基于各样本的特征集合，以极度梯度提升算法、神经网络算法和极性随机数算法分别构造分类器以对每个样本的分类进行投票，然后对各分类器的投票结果进行加权平均得到蛋白质RNA结合面上残基是否为热点的预测结果。

2.根据权利要求1所述的预测蛋白质RNA结合物热点的方法，其特征在于，各所述分类器的投票结果都为0到1之间的概率值，若三个概率值加权平均的最终结果大于或等于0.5，则判定为正样本，即热点，反之为非热点。

3.一种预测蛋白质RNA结合物热点的系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1或2所述方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述权利要求1或2所述方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810299939.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载