[发明专利]云环境下基于编辑距离的相似碱基序列查询方法在审
申请号: | 201610289866.8 | 申请日: | 2016-05-04 |
公开(公告)号: | CN105956417A | 公开(公告)日: | 2016-09-21 |
发明(设计)人: | 张世哲;李辉;马建峰;马鑫迪 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06F17/30;G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种云环境下基于编辑距离的相似碱基序列查询方法,主要解决云不完全可信时,从云端大量的电子记录中找出相似碱基序列的问题。其实现步骤为:(1)计算用户碱基序列的单字符操作集;(2)聚类;(3)用户碱基序列和聚类中心的哈希映射;(4)计算待查询碱基序列的单字符操作集;(5)待查询序列的哈希映射;(6)选择候选客户端;(7)查找相似碱基序列。本发明是将基于编辑距离的相似碱基序列查询方法应用于云环境下,较之传统的相似碱基序列查询方法,具有较好的扩展性和伸缩性,保证云环境下的碱基序列的安全,减少硬件资源的消耗。 | ||
搜索关键词: | 环境 基于 编辑 距离 相似 碱基 序列 查询 方法 | ||
【主权项】:
一种云环境下基于编辑距离的相似碱基序列查询方法,包括如下步骤:(1)计算用户碱基序列的单字符操作集:(1a)从云环境下的客户端输入每个用户基因组中的脱氧核糖核酸DNA全部信息保存到本地数据库中,所述脱氧核糖核酸DNA包含腺嘌呤A,胸腺嘧啶T,胞嘧啶G,鸟嘌呤C的碱基序列;(1b)从云环境下的客户端输入一个与碱基序列对应的公共参考序列Ref,保存到本地数据库中;(1c)采用碱基序列压缩算法,将公共参考序列Ref转化为数据库存储的碱基序列,得到公共参考序列Ref和数据库存储的碱基序列的最小编辑序列;(1d)运用拆分操作,将最小编辑序列拆分成单字符操作集;(2)聚类:采用KMeans聚类方法,在云环境下的客户端上将所有用户的单字符操作集分成几个聚类;(3)用户碱基序列和聚类中心的哈希映射:(3a)在云环境下的客户端上,对每个用户的单字符操作集进行哈希映射,得到每个用户的哈希映射集;(3b)对每个用户的哈希映射集求和,将所得结果作为每个用户碱基序列的映射值;(3c)对每个聚类中心的单字符操作集分别进行哈希映射,得到每个聚类中心的哈希映射集;(3d)对每个聚类中心的哈希映射集求和,将所得结果作为每个聚类中心的映射值;(3e)将每个用户和每个聚类中心的映射值发送给云计算平台;(4)计算待查询碱基序列的单字符操作集:(4a)将云环境下客户端输入一个待查询碱基序列保存到本地数据库中;(4b)采用碱基序列压缩算法,将公共参考序列Ref转化为待查询碱基序列,得到公共参考序列Ref和待查询碱基序列的最小编辑序列;(4c)运用拆分操作,将最小编辑拆分成单字符操作集;(5)待查询碱基序列的哈希映射:(5a)在云环境下的客户端上,对待查询碱基序列的单字符操作集进行哈希映射,得到待查询碱基序列的哈希映射集;(5b)对待查询碱基序列的哈希映射集求和,将所得结果作为待查询碱基序列的映射值;(5c)将待查询碱基序列的映射值发送给云计算平台;(6)选择候选客户端:(6a)采用隐私差集大小协议,在云计算平台上对待查询碱基序列的映射值和聚类中心的映射值进行计算,得到待查询碱基序列与聚类中心的近似编辑距离;(6b)比较近似编辑距离与含有近似参数的聚类阈值,将近似编辑距离小于聚类阈值时聚类所在的客户端作为候选客户端;(7)查找相似碱基序列:(7a)采用隐私差集大小协议,在云计算平台上对待查询碱基序列的映射值和候选客户端中用户碱基序列的映射值进行计算,得到待查询碱基序列与用户碱基序列的近似编辑距离;(7b)将近似编辑距离小于近似参数时所对应的用户碱基序列作为待查询碱基序列相似的碱基序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610289866.8/,转载请声明来源钻瓜专利网。
- 上一篇:无草炭型基质及其应用
- 下一篇:基于吸收能量原理的爆破振动舒适性评价方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用