[发明专利]一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质有效
申请号: | 202011022788.8 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112182497B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 董祥军;芦月 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G16B30/10;G16B45/00;G16B50/00 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生物 序列 模式 相似性 分析 方法 实现 系统 介质 | ||
1.一种基于生物序列的负序列模式的相似性分析方法,其特征在于,包括步骤如下:
(1)数据预处理
将DNA序列中的字母用数字来表示;并将数字表示后的DNA序列分割成若干个块,每个块碱基数量相同,得到的若干个块作为频繁模式挖掘的数据集;
(2)频繁模式挖掘
使用f-NSP算法来挖掘数据集,得到最大频繁正、负序列模式;
(3)对最大频繁正、负序列模式进行图形表示;包括:在复平面构造一个嘌呤嘧啶图,嘌呤嘧啶图中,第一、二象限是嘌呤,包括A、G和第三、四象限是嘧啶,包括T、C和四个核苷酸A、G、T、C及其对应的负序列的单位向量如式(Ⅰ)至式(Ⅷ)所示:
(b+di)→A(Ⅰ)
(d+bi)→G(Ⅱ)
(b-di)→T(Ⅲ)
(d-bi)→C(IV)
式(Ⅰ)至式(Ⅷ)中,b和d是非零的实数,A和T是共轭的,G和C也是共轭的,即,A、T、C,G代表现实存在的碱基对,表示的是DNA序列中本该出现却没有出现的碱基对,又称缺失的碱基对,也叫A、G、T、C及其对应的负序列的单位向量;
通过这种表示方法,将一个DNA序列碱基还原为一个数字序列s(t),如式(Ⅸ)所示:
式(Ⅸ)中,1≤t≤n,s(0)=0,其中y(j)满足式(X):
式(X)中,j表示序列S中第0,1,2,...,n个位置上的碱基类型,n是被研究的DNA序列的长度;
利用式(X)把12种最大频繁正、负序列模式转化为数字序列;
(4)DNA序列的相似性分析
求取不同DNA序列的相似度,相似度越小,DNA序列越相似;
求取距离矩阵,距离矩阵用于表示不同DNA序列的相似度;
通过DTW算法求取距离矩阵,设转化DNA序列而获得的时间序列为,其长度分别为m和n;按照它们的时间位置进行排序,构造m×n矩阵Am×n,矩阵中的每个元素在矩阵中,把一组相邻的矩阵元素的集合称为弯曲路径,记为W=w1,w2,...,wK,W的第k个元素wk=(aij)k,这条路径满足下列条件:
①max{m,n}≤K≤m+m-1;
②w1=a11,wK=amn;
③对wk=(aij)k,wk-1=(ai'j')k-1必须满足0≤i-i'≤1,0≤j-j'≤1,则DTW算法为运用动态规划思想寻找一条具有最小弯曲代价的最佳路径,如式(Ⅺ)所示:
式(Ⅺ)中,i=2,3,...,m;j=2,3,...,n,D(m,n)为Am×n中弯曲路径的最小累加值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011022788.8/1.html,转载请声明来源钻瓜专利网。