[发明专利]一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质有效

专利信息
申请号: 202011022788.8 申请日: 2020-09-25
公开(公告)号: CN112182497B 公开(公告)日: 2021-04-27
发明(设计)人: 董祥军;芦月 申请(专利权)人: 齐鲁工业大学
主分类号: G06F17/16 分类号: G06F17/16;G16B30/10;G16B45/00;G16B50/00
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 许德山
地址: 250353 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 生物 序列 模式 相似性 分析 方法 实现 系统 介质
【权利要求书】:

1.一种基于生物序列的负序列模式的相似性分析方法,其特征在于,包括步骤如下:

(1)数据预处理

将DNA序列中的字母用数字来表示;并将数字表示后的DNA序列分割成若干个块,每个块碱基数量相同,得到的若干个块作为频繁模式挖掘的数据集;

(2)频繁模式挖掘

使用f-NSP算法来挖掘数据集,得到最大频繁正、负序列模式;

(3)对最大频繁正、负序列模式进行图形表示;包括:在复平面构造一个嘌呤嘧啶图,嘌呤嘧啶图中,第一、二象限是嘌呤,包括A、G和第三、四象限是嘧啶,包括T、C和四个核苷酸A、G、T、C及其对应的负序列的单位向量如式(Ⅰ)至式(Ⅷ)所示:

(b+di)→A(Ⅰ)

(d+bi)→G(Ⅱ)

(b-di)→T(Ⅲ)

(d-bi)→C(IV)

式(Ⅰ)至式(Ⅷ)中,b和d是非零的实数,A和T是共轭的,G和C也是共轭的,即,A、T、C,G代表现实存在的碱基对,表示的是DNA序列中本该出现却没有出现的碱基对,又称缺失的碱基对,也叫A、G、T、C及其对应的负序列的单位向量;

通过这种表示方法,将一个DNA序列碱基还原为一个数字序列s(t),如式(Ⅸ)所示:

式(Ⅸ)中,1≤t≤n,s(0)=0,其中y(j)满足式(X):

式(X)中,j表示序列S中第0,1,2,...,n个位置上的碱基类型,n是被研究的DNA序列的长度;

利用式(X)把12种最大频繁正、负序列模式转化为数字序列;

(4)DNA序列的相似性分析

求取不同DNA序列的相似度,相似度越小,DNA序列越相似;

求取距离矩阵,距离矩阵用于表示不同DNA序列的相似度;

通过DTW算法求取距离矩阵,设转化DNA序列而获得的时间序列为,其长度分别为m和n;按照它们的时间位置进行排序,构造m×n矩阵Am×n,矩阵中的每个元素在矩阵中,把一组相邻的矩阵元素的集合称为弯曲路径,记为W=w1,w2,...,wK,W的第k个元素wk=(aij)k,这条路径满足下列条件:

①max{m,n}≤K≤m+m-1;

②w1=a11,wK=amn

③对wk=(aij)k,wk-1=(ai'j')k-1必须满足0≤i-i'≤1,0≤j-j'≤1,则DTW算法为运用动态规划思想寻找一条具有最小弯曲代价的最佳路径,如式(Ⅺ)所示:

式(Ⅺ)中,i=2,3,...,m;j=2,3,...,n,D(m,n)为Am×n中弯曲路径的最小累加值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011022788.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top