[发明专利]具有组格式的可变长度数据的改进型编码和解码有效
申请号: | 201280014197.3 | 申请日: | 2012-02-22 |
公开(公告)号: | CN103582883B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 丹尼尔·E.·罗斯;亚历山大·A.·斯特潘诺夫;阿尼尔·拉梅什·冈格利;帕拉姆吉特·S.·奥比罗;瑞安·雅各布·恩斯特 | 申请(专利权)人: | A9.COM公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 李丙林,曹桓 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 格式 可变 长度 数据 改进型 编码 解码 | ||
背景技术
典型的搜索引擎索引算法采用反向索引数据结构。这在概念上类似于书籍背后的索引,它是将例如,词汇列表的索引数据结构映射到其在文档(或文档集)中的位置的索引数据结构。在搜索引擎的应用环境中,文档通常是Web页面、电子邮件消息等。词汇在文档中出现可以称为收录,包括一个词汇的所有文档的列表可以称为收录列表。刚好与书籍索引条目列表页码一样,收录列表可以包括文档标识号(docID)。当搜索引擎接收查询时,它可以对收录列表查找查询中的每个词汇,并组合结果。为了高效地组合结果,可以按其docID的次序存储器这些收录。
期望将收录列表存储在尽可能小的空间中。使用相邻docID之间的差而非docID本身,收录能够包括更少的数量。从常用数据库到MIDI规范,有多种其他示例,其中可以更紧密地将数据编码,然后在较后的点处将其解码,其中常常基于需要数据的时间重复地进行解码。有多种为将数据存储在更少的空间中而开发的技术。但是,这些方法或许有缺点,包括速度限制或存储效率限制。
附图简介
将参考附图描述根据本发明披露的多种实施例,其中:
图1图示其中能够实施多种实施例的环境;
图2A图示能够根据一些实施例使用的拆分一进制编码格式;
图2B图示根据一些实施例的采用拆分一进制编码格式编码的数据的示例;
图3A图示能够根据一些实施例使用的封包一进制编码格式;
图3B图示根据一些实施例的采用封包一进制编码格式编码的数据的示例;
图4A图示能够根据一些实施例使用的封包二进制编码格式;
图4B图示根据一些实施例的采用封包二进制编码格式编码的数据的示例;
图5A图示能够根据一些实施例使用的组二进制编码格式;
图5B图示根据一些实施例的采用组二进制编码格式编码的数据的示例;
图6A图示能够根据一些实施例使用的组一进制编码格式;
图6B图示根据一些实施例的采用组一进制编码格式编码的数据的示例;
图6C图示能够根据一些实施例使用的组一进制编码格式;
图7A图示能够根据一些实施例使用的组一进制编码格式;
图7B图示根据一些实施例的采用组一进制编码格式编码的数据的示例;
图7C图示能够根据一些实施例使用的组一进制编码格式;
图8图示能够根据一些实施例使用的用于将搜索引擎收录列表的文档标识号编码的方法;
图9图示能够根据一些实施例使用的用于将可变长度数据编码的方法;
图10图示能够根据一些实施例使用的并行整理(parallel shuffle)操作;
图11图示能够根据一些实施例使用的并行整理(parallel shuffle)操作;
图12图示能够根据一些实施例使用的解码的方法;
图13图示如何构造能够根据一些实施例使用的整理序列;
图14图示能够根据一些实施例使用的用于将搜索引擎收录列表中的编码的文档标识号差解码的方法;
图15图示能够根据一些实施例使用的用于将可变长度数据解码的方法;
图16图示能够根据一些实施例使用的混合一进制序列编码格式;
图17图示根据一些实施例的采用混合一进制序列编码格式编码的数据的示例;
图18图示能够根据一些实施例使用的具有恒定长度描述符的块行程的混合编码格式;
图19图示根据一些实施例的采用具有恒定长度描述符的块行程的混合编码格式编码的数据的示例;
图20图示根据一些实施例的采用具有恒定长度描述符的块行程的混合编码格式编码的数据的示例;
图21图示根据一些实施例的采用具有恒定长度描述符的行程的混合编码格式编码的数据的示例;
图22图示根据一些实施例的采用具有可变长度描述符的行程的混合编码格式编码的数据的示例;以及
图23图示根据一些实施例的采用具有可变长度描述符的行程的混合编码格式编码的数据的示例。
具体实施方式
根据本发明披露的多种实施例的系统和方法可以克服用于将数据集编码和解码的常规方法中遇到的前文所述和其他缺点中的一个或多个缺点。具体来说,多种方法提供对包括整数序列,如搜索引擎收录列表中遇到的那些整数序列的数据集进行改进的编码和/或解码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于A9.COM公司,未经A9.COM公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280014197.3/2.html,转载请声明来源钻瓜专利网。