[发明专利]基于标准熵的局部敏感哈希的DNA序列聚类有效
申请号: | 201710285598.7 | 申请日: | 2017-04-27 |
公开(公告)号: | CN107103206B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 江秉华;江育娥;徐彭娜;林劼 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G06K9/62 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开基于标准熵的局部敏感哈希的DNA序列聚类,通过对原始的DNA序列按着L‑Gram模型进行映射,通过计算N条序列的LF熵值构成的矩阵,进而得出其标准熵,使用Locality‑Sensitive Hashing对标准熵进行哈希映射,得到DNA片段序列的候选集合,在候选集合中计算编辑距离小于d的DNA片段序列得到聚类结果。本发明综合考虑到在转换后的特征空间包含足够的原始DNA信息,避免DNA信息的丢失,将每一段DNA序列转为一个新的空间,并计算每一条DNA片段序列的候选DNA片段序列集合,可以提高运算速度和精确度。 | ||
搜索关键词: | 基于 标准 局部 敏感 dna 序列 | ||
【主权项】:
1.基于标准熵的局部敏感哈希的DNA序列聚类,其特征在于:其包括以下步骤:(1)采用第二代测序技术对整条待测序列进行测序,得到一批DNA短片段,每一个短片段称为DNA片段序列;(2)DNA片段序列中的字母集合为{A、C、G、T},|∑|表示该字母集合中字母的个数,初始化待处理字的字长大小L,对DNA片段序列使用固定长度的滑动窗口获得待处理字Y集合,待处理字Y集合中待处理字Y的个数为|∑|L,根据每个待处理字的位置信息Xt计算其熵值h;所述待处理字的位置信息Xt是指待处理字在DNA片段序列中两次出现时对应的两个位置间的距离的倒数;![]()
其中,Y表示待处理字,t表示待处理字出现的位置顺序,LFtY表示待处理字Y的第t次出现在DNA片段序列的位置,Yλ表示第λ个预处理字;λ表示待处理字的编号;z代表待处理字出现的频数;P[t]为离散概率P的第t个离散概率,即为部分和Qt占总和Z的离散概率;部分和Qt表示位置信息Xt之和,Qt=X1+X2+...+Xt;总和Z=Q1+Q2+...+Qn;(3)计算特征向量:将熵值使用公式标准化得到标准熵值HLF作为哈希函数的特征变量,标准熵值HLF的计算公式如下:
h(Yλ)是字Yλ的熵,z代表待处理字出现的频数;(4)计算哈希矩阵HM:将N条DNA片段序列对应的标准熵值HLF采用Locality‑Sensitive Hashing方法进行计算,使用num_f个哈希函数计算得到num_f*N的哈希矩阵HM,哈希函数的公式如下:fa,m(v)=(a·v+m)/w其中v为DNA片段序列的特征向量,a为与特征向量v个数相同的0到1之间的随机向量,m为0到w的任一整数,w为任意正整数,这样哈希函数fa,m(v)将一个d维空间向量v映射为一个整数;(5)计算拼接哈希矩阵PHM:使用变量b,将哈希矩阵HM分成b个桶,每个桶有r行,其中r=num_f/b,对于每个桶的哈希矩阵HM,第i行表示第i个哈希函数,第j列表示第j条DNA片段序列,i∈[1,num_f],j∈[1,N],则HMij表示将第j条DNA片段序列的标准熵值采用第i个哈希函数进行哈希映射后的整数值;然后对HMij只保留前三位,不足三位则高位补充0;最后将HMj的每行进行拼接作为哈希拼接值,得到b*N的拼接哈希矩阵PHM;(6)计算候选DNA片段序列集合:对于DNA片段序列Sm,m∈[1,N],当在拼接哈希矩阵PHM中存在DNA片段序列Sn与Sm在同一行的哈希拼接值相同,n∈[1,N],m≠n,则Sn是Sm的候选DNA片段序列,Sm的所有候选DNA片段序列构成候选DNA片段序列集合Candidate;(7)实现聚类:随机选取一条未被聚类的DNA片段序列作为聚类中心,筛选该聚类中心对应的候选DNA片段序列集合Candidate与该聚类中心的编辑距离小于指定的阀值d的候选序列作为一个聚类结果,将已经被聚类的DNA片段序列存储在clustered中,循环上述聚类步骤,直到所有DNA片段序列都被聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710285598.7/,转载请声明来源钻瓜专利网。