[发明专利]用于近似查询的长序列数据降维方法无效
申请号: | 200710303987.4 | 申请日: | 2007-12-24 |
公开(公告)号: | CN101196921A | 公开(公告)日: | 2008-06-11 |
发明(设计)人: | 宋国杰;谢昆青 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市商泰律师事务所 | 代理人: | 毛燕生 |
地址: | 1008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种面向近似性查询的长序列数据降维方法,包括利用序列嵌入技术把序列数据转化为嵌入树,并抽取出多集集合;根据嵌入树和多集集合提取出相应的多集主成份,并在此基础上提出了基于距离收敛的序列数据降维原理;基于降维性质的基础上,构造出了面向序列近似查询的索引结构,SEM-tree,并基于该索引结构基础上,利用序列距离双边界(最大上界和最小下界)原理,提出了高效的面向长序列数据的近似性查询方法。本发明可以广泛的应用于面向长序列数据的近似查询应用中,如从海量的互联网文本数据中通过相似性搜索找到查找的目标,从大规模基因数据中对基因片段进行的相似性查询与分析等。本发明而且预见能够取得明显的经济效益和社会效益。 | ||
搜索关键词: | 用于 近似 查询 序列 数据 方法 | ||
【主权项】:
1.一种面向近似性查询的长序列数据降维方法,其特征是:包括如下步骤:步骤一、利用序列嵌入技术,把一个输入的长序列数据转化为一棵序列嵌入树;步骤二、从序列嵌入树中,从每一层抽取出由字符序列所组成的字符多集集合,并利用所提出的距离收敛性质,构造多集空间所对应的主成份;步骤三、在所提出的多集主成份和距离收敛性质的基础上,构造一个与多集主成份对应的索引结构;步骤四、基于所提出索引结构基础上,提出序列距离的双边界距离上界和下界原理,并提出相应的近似性查询算法,完成基于序列降维的长序列高效查询。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710303987.4/,转载请声明来源钻瓜专利网。