[发明专利]一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质有效

申请号：	202011022788.8	申请日：	2020-09-25
公开（公告）号：	CN112182497B	公开（公告）日：	2021-04-27
发明（设计）人：	董祥军;芦月	申请（专利权）人：	齐鲁工业大学
主分类号：	G06F17/16	分类号：	G06F17/16;G16B30/10;G16B45/00;G16B50/00
代理公司：	济南金迪知识产权代理有限公司 37219	代理人：	许德山
地址：	250353 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于生物序列模式相似性分析方法实现系统介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于生物序列的负序列模式的相似性分析方法，其特征在于，包括步骤如下：

(1)数据预处理

将DNA序列中的字母用数字来表示；并将数字表示后的DNA序列分割成若干个块，每个块碱基数量相同，得到的若干个块作为频繁模式挖掘的数据集；

(2)频繁模式挖掘

使用f-NSP算法来挖掘数据集，得到最大频繁正、负序列模式；

(3)对最大频繁正、负序列模式进行图形表示；包括：在复平面构造一个嘌呤嘧啶图，嘌呤嘧啶图中，第一、二象限是嘌呤，包括A、G和第三、四象限是嘧啶，包括T、C和四个核苷酸A、G、T、C及其对应的负序列的单位向量如式(Ⅰ)至式(Ⅷ)所示：

(b+di)→A(Ⅰ)

(d+bi)→G(Ⅱ)

(b-di)→T(Ⅲ)

(d-bi)→C(IV)

式(Ⅰ)至式(Ⅷ)中，b和d是非零的实数，A和T是共轭的，G和C也是共轭的，即，A、T、C，G代表现实存在的碱基对，表示的是DNA序列中本该出现却没有出现的碱基对，又称缺失的碱基对，也叫A、G、T、C及其对应的负序列的单位向量；

通过这种表示方法，将一个DNA序列碱基还原为一个数字序列s(t)，如式(Ⅸ)所示：

式(Ⅸ)中，1≤t≤n，s(0)＝0，其中y(j)满足式(X)：

式(X)中，j表示序列S中第0,1,2,...,n个位置上的碱基类型，n是被研究的DNA序列的长度；

利用式(X)把12种最大频繁正、负序列模式转化为数字序列；

(4)DNA序列的相似性分析

求取不同DNA序列的相似度，相似度越小，DNA序列越相似；

求取距离矩阵，距离矩阵用于表示不同DNA序列的相似度；

通过DTW算法求取距离矩阵，设转化DNA序列而获得的时间序列为，其长度分别为m和n；按照它们的时间位置进行排序，构造m×n矩阵A_m×n，矩阵中的每个元素在矩阵中，把一组相邻的矩阵元素的集合称为弯曲路径，记为W＝w₁,w₂,...,w_K，W的第k个元素w_k＝(a_ij)_k，这条路径满足下列条件：

①max{m,n}≤K≤m+m-1；

②w₁＝a₁₁,w_K＝a_mn；

③对w_k＝(a_ij)_k,w_k-1＝(a_i'j')_k-1必须满足0≤i-i'≤1,0≤j-j'≤1，则DTW算法为运用动态规划思想寻找一条具有最小弯曲代价的最佳路径，如式(Ⅺ)所示：

式(Ⅺ)中，i＝2,3,...,m；j＝2,3,...,n，D(m,n)为A_m×n中弯曲路径的最小累加值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学，未经齐鲁工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011022788.8/1.html，转载请声明来源钻瓜专利网。

上一篇：输电线路防外力破坏方法及装置
下一篇：具有高低压同步测量与保护的边缘计算系统、方法和终端

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质有效

专利文献下载