[发明专利]基于标准熵的局部敏感哈希的DNA序列聚类有效

专利信息
申请号: 201710285598.7 申请日: 2017-04-27
公开(公告)号: CN107103206B 公开(公告)日: 2019-10-18
发明(设计)人: 江秉华;江育娥;徐彭娜;林劼 申请(专利权)人: 福建师范大学
主分类号: G16B30/00 分类号: G16B30/00;G06K9/62
代理公司: 福州君诚知识产权代理有限公司 35211 代理人: 戴雨君
地址: 350108 福建省福州*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开基于标准熵的局部敏感哈希的DNA序列聚类,通过对原始的DNA序列按着L‑Gram模型进行映射,通过计算N条序列的LF熵值构成的矩阵,进而得出其标准熵,使用Locality‑Sensitive Hashing对标准熵进行哈希映射,得到DNA片段序列的候选集合,在候选集合中计算编辑距离小于d的DNA片段序列得到聚类结果。本发明综合考虑到在转换后的特征空间包含足够的原始DNA信息,避免DNA信息的丢失,将每一段DNA序列转为一个新的空间,并计算每一条DNA片段序列的候选DNA片段序列集合,可以提高运算速度和精确度。
搜索关键词: 基于 标准 局部 敏感 dna 序列
【主权项】:
1.基于标准熵的局部敏感哈希的DNA序列聚类,其特征在于:其包括以下步骤:(1)采用第二代测序技术对整条待测序列进行测序,得到一批DNA短片段,每一个短片段称为DNA片段序列;(2)DNA片段序列中的字母集合为{A、C、G、T},|∑|表示该字母集合中字母的个数,初始化待处理字的字长大小L,对DNA片段序列使用固定长度的滑动窗口获得待处理字Y集合,待处理字Y集合中待处理字Y的个数为|∑|L,根据每个待处理字的位置信息Xt计算其熵值h;所述待处理字的位置信息Xt是指待处理字在DNA片段序列中两次出现时对应的两个位置间的距离的倒数;其中,Y表示待处理字,t表示待处理字出现的位置顺序,LFtY表示待处理字Y的第t次出现在DNA片段序列的位置,Yλ表示第λ个预处理字;λ表示待处理字的编号;z代表待处理字出现的频数;P[t]为离散概率P的第t个离散概率,即为部分和Qt占总和Z的离散概率;部分和Qt表示位置信息Xt之和,Qt=X1+X2+...+Xt;总和Z=Q1+Q2+...+Qn;(3)计算特征向量:将熵值使用公式标准化得到标准熵值HLF作为哈希函数的特征变量,标准熵值HLF的计算公式如下:h(Yλ)是字Yλ的熵,z代表待处理字出现的频数;(4)计算哈希矩阵HM:将N条DNA片段序列对应的标准熵值HLF采用Locality‑Sensitive Hashing方法进行计算,使用num_f个哈希函数计算得到num_f*N的哈希矩阵HM,哈希函数的公式如下:fa,m(v)=(a·v+m)/w其中v为DNA片段序列的特征向量,a为与特征向量v个数相同的0到1之间的随机向量,m为0到w的任一整数,w为任意正整数,这样哈希函数fa,m(v)将一个d维空间向量v映射为一个整数;(5)计算拼接哈希矩阵PHM:使用变量b,将哈希矩阵HM分成b个桶,每个桶有r行,其中r=num_f/b,对于每个桶的哈希矩阵HM,第i行表示第i个哈希函数,第j列表示第j条DNA片段序列,i∈[1,num_f],j∈[1,N],则HMij表示将第j条DNA片段序列的标准熵值采用第i个哈希函数进行哈希映射后的整数值;然后对HMij只保留前三位,不足三位则高位补充0;最后将HMj的每行进行拼接作为哈希拼接值,得到b*N的拼接哈希矩阵PHM;(6)计算候选DNA片段序列集合:对于DNA片段序列Sm,m∈[1,N],当在拼接哈希矩阵PHM中存在DNA片段序列Sn与Sm在同一行的哈希拼接值相同,n∈[1,N],m≠n,则Sn是Sm的候选DNA片段序列,Sm的所有候选DNA片段序列构成候选DNA片段序列集合Candidate;(7)实现聚类:随机选取一条未被聚类的DNA片段序列作为聚类中心,筛选该聚类中心对应的候选DNA片段序列集合Candidate与该聚类中心的编辑距离小于指定的阀值d的候选序列作为一个聚类结果,将已经被聚类的DNA片段序列存储在clustered中,循环上述聚类步骤,直到所有DNA片段序列都被聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710285598.7/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top