[发明专利]一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质有效
申请号: | 202011022788.8 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112182497B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 董祥军;芦月 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G16B30/10;G16B45/00;G16B50/00 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生物 序列 模式 相似性 分析 方法 实现 系统 介质 | ||
本发明涉及一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质,包括:(1)数据预处理:将DNA序列中的字母用数字来表示;并分割成若干个块,得到的若干个块作为频繁模式挖掘的数据集;(2)频繁模式挖掘:使用f‑NSP算法来挖掘数据集;(3)对最大频繁正、负序列模式进行图形表示;把最大频繁正、负序列模式转化为数字序列;(4)DNA序列的相似性分析:求取不同DNA序列的相似度,选取相似度最小的对应的DNA序列为待研究的DNA序列。本发明可以有效地对负序列进行有效的表达和分析,并且通过选取不同的最大频繁模式组合,能够得到不同的分析结果,大大节省了计算机的内存和时间的消耗。
技术领域
本发明涉及一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质,属于可决策的高效用负序列规则的应用技术领域。
背景技术
近年来,我们获得了海量的生物序列数据,随着DNA及蛋白质测序技术的进步,对解读生物序列数据中所含的各种信息,尤其是DNA序列中的遗传及调控信息、蛋白质序列结构与功能的关系的数据分析工具的需求增加,序列相似性分析得到广泛的应用。每当我们获得一个新的DNA序列的时候,希望通过相似性分析来证明它与某些已知的序列相似,如果和已知的序列具有同源性的话,会大大节省重新测定新序列的功能的时间和精力,而生物序列庞大,这就显得尤为重要了。在生物序列分析中,序列模式挖掘算法有助于识别同时发生的生物序列和发现DNA或蛋白质序列中的关系,因此研究缺失的碱基对序列比单一的去挖掘频繁的序列模式具有更高的意义。在生物信息学研究中,生物序列的相似性分析绝非简单机械的比较,而必然是多种多样的,同时还需要运用许多数学和统计学方法进行辅助分析与评判。序列相似性分析中,比对是最常用和最经典的研究手段。从生物序列的层次分析序列的相似性,推测其结构功能及进化上的联系是基因识别、分子进化、生命起源研究的基础,然而,在进行序列比对时有两方面的问题直接影响相似性分值:取代矩阵和空值罚分,粗糙的比对方法仅适用相同或不同来描述两个碱基的关系。生物序列的相似性分析用于提取储存在蛋白质序列中的信息,为此提出了许多数学方案。生物序列的图形表示可以识别任何序列的信息内容,以帮助生物学家选择另一种复杂的理论或实验方法。图形表示不仅提供了基因数据的可视化定性检查,而且还通过矩阵等对象提供了数学描述。大部分的数学方案是基于2-D和3-D表示的。
关于序列模式挖掘,对于正序列模式(Positive Sequential Pattern,PSP)挖掘仅仅考虑了已经发生了的事件(行为),不同于传统序列模式挖掘的思路,负序列模式挖掘(Negative Sequential Pattern, NSP)还考虑了未发生的事件(行为),也就是不存在于序列中的项,这样可以为人类提供更加全面地决策信息,比如,校园中存在的各种现状对学生的学习和生活产生的不同程度的影响;涉嫌医疗欺诈行为的参保人消除不良购药记录;缺失的基因片段可能诱发潜在的疾病等,但是,它们往往容易被人类所忽视,因此,越来越受到从事数据挖掘工作人员的关注。尤其是在生物序列分析中,序列模式挖掘算法有助于识别同时发生的生物序列和发现DNA或蛋白质序列中的关系,因此,研究缺失的碱基对序列比单一的去挖掘频繁的序列模式具有更高的意义。生物数据分析或生物数据挖掘存在一些重要的问题,如寻找共现的生物序列,对生物序列进行有效分类、对生物序列进行聚类分析等。而序列模式挖掘算法有助于识别同时发生的生物序列和发现DNA或蛋白质序列中的关系。生物序列数据往往包含着大量有价值的生物信息,例如,生物序列中频繁出现的基因和蛋白质片段往往含有许多未知的信息,挖掘这些信息具有重要的意义;某些细菌对人体的攻击受其基因中某些片段的影响;一些数目可变的串联重复序列的极度扩张可能会导致相关神经系统方面疾病。此外, DNA序列中的频繁模式的发现将是解释生物遗传特性的一种有效方法,这些频繁模式往往作为生物序列隐含数据的可能趋势和某些事件的相关标记。所以,在蛋白质或DNA等生物序列中频繁模式的挖掘具有重要价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011022788.8/2.html,转载请声明来源钻瓜专利网。