[发明专利]用于近似查询的长序列数据降维方法无效

专利信息
申请号: 200710303987.4 申请日: 2007-12-24
公开(公告)号: CN101196921A 公开(公告)日: 2008-06-11
发明(设计)人: 宋国杰;谢昆青 申请(专利权)人: 北京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市商泰律师事务所 代理人: 毛燕生
地址: 1008*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种面向近似性查询的长序列数据降维方法,包括利用序列嵌入技术把序列数据转化为嵌入树,并抽取出多集集合;根据嵌入树和多集集合提取出相应的多集主成份,并在此基础上提出了基于距离收敛的序列数据降维原理;基于降维性质的基础上,构造出了面向序列近似查询的索引结构,SEM-tree,并基于该索引结构基础上,利用序列距离双边界(最大上界和最小下界)原理,提出了高效的面向长序列数据的近似性查询方法。本发明可以广泛的应用于面向长序列数据的近似查询应用中,如从海量的互联网文本数据中通过相似性搜索找到查找的目标,从大规模基因数据中对基因片段进行的相似性查询与分析等。本发明而且预见能够取得明显的经济效益和社会效益。
搜索关键词: 用于 近似 查询 序列 数据 方法
【主权项】:
1.一种面向近似性查询的长序列数据降维方法,其特征是:包括如下步骤:步骤一、利用序列嵌入技术,把一个输入的长序列数据转化为一棵序列嵌入树;步骤二、从序列嵌入树中,从每一层抽取出由字符序列所组成的字符多集集合,并利用所提出的距离收敛性质,构造多集空间所对应的主成份;步骤三、在所提出的多集主成份和距离收敛性质的基础上,构造一个与多集主成份对应的索引结构;步骤四、基于所提出索引结构基础上,提出序列距离的双边界距离上界和下界原理,并提出相应的近似性查询算法,完成基于序列降维的长序列高效查询。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200710303987.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top