[发明专利]一种基于SeqRank图算法的生物序列聚类方法有效
申请号: | 201810989377.2 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109326327B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 江育娥;俞婷婷;林劼 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06K9/62 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于SeqRank图算法的序列聚类方法,其包括以下步骤:步骤1,对数据集中的序列进行分割;步骤2,构件图模型;步骤3,计算结点的权重;步骤4,计算结点的重要性;步骤5,基于SeqRank,对序列进行k‑means聚类;步骤6,预测序列的所属类别。本发明通过使用SeqRank图算法进行聚类,对生物序列进行聚类分析,试图在聚类分析的层次上从生物序列数据中得到深层信息含义及可靠地结论,有效地解决现有技术中存在的序列间聚类结果不够准确、不够客观的问题。 | ||
搜索关键词: | 一种 基于 seqrank 算法 生物 序列 方法 | ||
【主权项】:
1.一种基于SeqRank图算法的序列聚类方法,其特征在于:其包括以下步骤:步骤1,对数据集中的序列进行分割:步骤1.1,设定数据集中的每条序列的长度为m;每个序列进行K‑词处理获得m‑k+1个子序列,K‑词处理的窗口长度为k,1≤k≤m;步骤1.2,统计两序列间共现k‑mers的词频;当两序列存在共同k‑mers,则认为该两条序列是相邻序列;步骤2,构件图模型:以序列为结点,序列间无向的相互作用关系为边,构建图模型;当两序列存在共同k‑mers,则认为该两条序列存在共同的边,边的权重即为共同k‑mers的数量;步骤3:计算每个结点的权重:步骤3.1:对于任意两个结点vi和vj,结点vi对vj的权重计算方法如下:
wi表示k‑mer w在结点i中的数量,wj表示k‑mer w在结点j中的数量;步骤3.2:wjk表示结点vj接收到的来自其它结点的作用,通过以下公式计算wjk:
wjk表示每个相邻结点对本结点的贡献程度,M表示序列总数,分母∑i∈M|wj|表示指向当前节点vj的k‑mers总和,∑i∈M|wj|为一个加权和;步骤4:计算每个结点的重要性,迭代计算每个结点vi的重要性WS(vi),WS(vi)对应的SeqRank计算公式为:
WS(vi)表示结点vi的重要性,E(vi,vj)≠0表示结点vi和结点vj存在共同的边,vk是与结点vj存在共同的边的结点,wji表示结点vi指向结点vj的边的权重,即结点vi和结点vj存在的共同k‑mers的数量;
表示E(vj,vk)≠0时结点vj指向结点vk的边的权重;WS(vj)为上一次迭代后结点vj的重要性;d为阻尼系数,d表示在任意时刻用户从一个结点跳转到另一结点的概率;步骤5:基于SeqRank算法对序列进行聚类;对所有序列的迭代结果进行处理,选出重要性大于均值的M′条序列进行k‑means聚类;Ccate=min(|Rcate‑KMcate|)1≤cate≤N 公式(6)Ccate表示k‑means聚类的中心序列,Rcate表示每一类聚类结果的集合,KMcate是k‑means对应的每一类的聚类中心点,N为中心序列的总条数;步骤6:预测序列的所属类别;分别计算各条序列与每条中心序列Ccate的编辑距离,选出中心序列Ccate中编辑距离最小的序列作为该序列的预测所属类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810989377.2/,转载请声明来源钻瓜专利网。