[发明专利]基于标准熵的局部敏感哈希的DNA序列聚类有效
申请号: | 201710285598.7 | 申请日: | 2017-04-27 |
公开(公告)号: | CN107103206B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 江秉华;江育娥;徐彭娜;林劼 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G06K9/62 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标准 局部 敏感 dna 序列 | ||
本发明公开基于标准熵的局部敏感哈希的DNA序列聚类,通过对原始的DNA序列按着L‑Gram模型进行映射,通过计算N条序列的LF熵值构成的矩阵,进而得出其标准熵,使用Locality‑Sensitive Hashing对标准熵进行哈希映射,得到DNA片段序列的候选集合,在候选集合中计算编辑距离小于d的DNA片段序列得到聚类结果。本发明综合考虑到在转换后的特征空间包含足够的原始DNA信息,避免DNA信息的丢失,将每一段DNA序列转为一个新的空间,并计算每一条DNA片段序列的候选DNA片段序列集合,可以提高运算速度和精确度。
技术领域
本发明涉及生物信息处理领域,尤其涉及基于标准熵的局部敏感哈希的DNA序列聚类。
背景技术
随着互联网时代的到来和信息技术的发展,基因测序技术发展地愈发成熟,加之各项基因项目的开展,生物数据的数量呈暴增式增长,传统的方法已经无法满足海量的数据处理分析。生物信息学是指将生物学与计算机技术结合,与数学学科交互,获取生物信息对其加工、提取、分析、存储等,挖掘遗传物质的位置信息。数据挖掘技术是一种能从大量数据中提取有用的、潜在的有效信息的技术。数据挖掘中的聚类能将具有某些相同特征的序列聚集在一起,更好的分析数据的功能或结构,从已知的功能和结构的序列探索出未知序列的有效信息是具有极大意义的。
现有的序列聚类方法存在很多的缺陷。基于划分的K-medoid算法、基于层次的全连接(complete-link)算法,这些传统聚类算法,需要对序列进行两两比对,时间复杂度高,如今的DNA序列数量增长极快,传统算法无法应用于海量数据中。K-means算法需要确定聚类个数,序列数据的质心也不易计算,初始聚类中心随机使得聚类结果不稳定,应用到生物序列数据聚类效果不佳。基于BAG图的聚类算法的结果有效,但在类的分割时需要使用聚类单元引导,而基因库中的序列数目过多,导致其使用无向图表示过多的序列异常困难。
发明内容
本发明的目的在于克服现有技术的不足,提供基于标准熵的局部敏感哈希的DNA序列聚类。
为了实现上述目的,本发明采用以下技术方案:
基于标准熵的局部敏感哈希的DNA序列聚类,包括以下步骤:
(1)采用第二代测序技术对整条待测序列进行测序,得到一批DNA短片段,每一个短片段称为DNA片段序列;
(2)DNA片段序列中的字母集合为{A、C、G、T},|∑|表示该字母集合中字母的个数,初始化待处理字的字长大小L,对DNA片段序列使用固定长度的滑动窗口获得待处理字Y集合,待处理字Y集合中待处理字Y的个数为|∑|L,,根据每个待处理字的位置信息Xt计算其熵值h;
所述待处理字的位置信息Xt是指待处理字在DNA片段序列中两次出现时对应的两个位置间的距离的倒数;
其中,Y表示待处理字,t表示待处理字出现的位置顺序,LFtY表示待处理字Y的第t次出现在DNA片段序列的位置,Yλ表示第λ个预处理字;λ表示待处理字的编号;z代表待处理字出现的频数;P[t]为离散概率P的第t个离散概率,即为部分和St占总和Z比的离散概率;
部分和St表示位置信息Xt之和,St=X1+X2+...+Xt;
总和Z=S1+S2+...+Sn;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710285598.7/2.html,转载请声明来源钻瓜专利网。