[发明专利]基于预测加权整合的农作物潜在过敏原检测实现方法有效
申请号: | 201510096519.9 | 申请日: | 2015-03-04 |
公开(公告)号: | CN104715166B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 李婧;李婧 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 上海交达专利事务所31201 | 代理人: | 王毓理,王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 预测 加权 整合 农作物 潜在 过敏原 检测 实现 方法 | ||
技术领域
本发明涉及的是一种基因检测领域的技术,具体是一种基于预测加权整合的农作物潜在过敏原检测实现方法,用于为转基因作物进入食物链前的致敏性风险评估提供一个可靠的参考。
背景技术
食品过敏是指食物中的某些物质(多为蛋白质)进入了体内,被体内的免疫系统当成入侵的有害物,引发机体免疫,对人体造成一系列复杂的反应。全世界约有25%的人口受此困扰。目前,我国政府把生物技术作为未来解决中国粮食安全的重要途径之一,加强转基因作物进入食物链前的致敏性风险评估非常有必要。
目前,基于计算生物学来进行过敏原预测的方法主要有三种:
第一种是于2001年由联合国粮食与农业组织/世界卫生组织(FAO/WHO)提出的基于序列的预测方法,即FAO/WHO规则1,其包括两条规则:1)与已知过敏原有连续六个氨基酸相同;2)与已知过敏原在80个氨基酸范围内相似度达到35%及以上。只要满足其中一则就被预测为过敏原蛋白。FAO/WHO方法的优点在于敏感度高,而缺点在于假阳性高,大概每200个被它预测为过敏原的蛋白中只有1个是真的过敏蛋白。第二种是于2003年提出的基于motif(模体)的预测方法,即FAO/WHO规则2,它利用的是比较待测蛋白与过敏原特征motifs,该方法同基于序列的方法相比,一定程度上提高了特异性,减少了假阳性率,但由于已知过敏原的motif有限,所以该类方法的使用受到限制。第三种是于2006年提出的基于SVM(支持向量机)的预测方法,即PREAL(PREdiction of ALlergenic protein,蛋白质过敏原预测)方法,采用线性分类器,通过根据样本调整线性分类面函数的系数,所有训练样本被正确划分即完成迭代,这类算法通过训练过敏原和非过敏原的各种特征,获得分类函数,从而达到过敏原预测的目的。该方法大大提高了准确率,但无法得知过敏原特征信息。
经过对现有技术的检索发现,中国专利文献号CN103049679A公开(公告)日2013.04.17,公开了一种蛋白质潜在致敏性的预测方法,包括以下步骤:步骤一,制作训练正集和训练负集;步骤二,对蛋白质的各类属性进行编码,构建特征向量;步骤三,引用最大相关最小冗余方法进行特征排序,引用递增式的特征选择方法进行最优特征选择;步骤四,通过对选择出的特征进行统计分析,给出与蛋白质致敏特性显著相关的特征结果报告。该PREAL()技术采用的是基于SVM的预测方法,它囊括了蛋白的128维向量特征,在整体准确率与特异性方面比以往的算法有明显优势,并且提供与蛋白质致敏特性显著相关的特征。但该算法的检测敏感度低于FAO/WHO预测方法。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于预测加权整合的农作物潜在过敏原检测实现方法,克服FAO/WHO预测方法的假阳性高的不足,以及如果训练集内没有与待测样本特征相似的已知样本,PREAL的预测准确率会下降的不足。本发明利用规范化的加权平均分(WAS,weighted average of the normalized scores)整合基于序列的FAO/WHO预测方法和基于SVM的PREAL算法,增加预测的性能和覆盖范围,通过把序列、二级结构等层面信息尽可能全面地引入我们的模型,我们可以更清楚地将过敏原与非过敏原区别开来,从而达到提高预测精确度的效果。
本发明是通过以下技术方案实现的:
本发明包括以下步骤:
步骤一,构建过敏原蛋白作为训练正集、非过敏原蛋白作为训练负集。
步骤二,使用FAO/WHO预测方法和PREAL算法对训练正负集的蛋白进行潜在致敏性预测。
所述的预测是指:针对每个蛋白评估其在FAO/WHO规则1、FAO/WHO规则2以及PREAL规则下的过敏判断结果,当FAO/WHO规则1预测该蛋白为过敏原时则评价为1,非过敏原打分为0;FAO/WHO规则2的打分标准与FAO/WHO规则1相同;在PREAL规则下的打分区间为(0,1)且分值越接近1表示越可能是过敏原。
步骤三,对步骤二所得到的预测结果根据不同的预测方法赋予权重,并计算加权预测结果值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510096519.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用