[发明专利]一种实现倒排链快速归并的方法和装置在审
申请号: | 201510611489.0 | 申请日: | 2015-09-22 |
公开(公告)号: | CN105224624A | 公开(公告)日: | 2016-01-06 |
发明(设计)人: | 王刚;万明成;曾洪雷 | 申请(专利权)人: | 广州神马移动信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王庆海 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 倒排链 快速 归并 方法 装置 | ||
1.一种实现倒排链快速归并的方法,其包括:
预先建立倒排索引并记录该倒排索引中的各条倒排链的长度;
通过所述倒排索引查询到与至少一个关键词对应的多条倒排链;
按照长度从小到大的顺序对所述多条倒排链进行排序;
从长度最小的倒排链开始对所述排序后的多条倒排链进行顺序归并。
2.根据权利要求1所述的方法,其特征在于,在建立倒排索引的过程中还包括建立分别包含检索单元和语义单元的多条倒排链。
3.根据权利要求2所述的方法,其特征在于,所述检索单元为通过小粒度分词方法获得的关键词。
4.根据权利要求2所述的方法,其特征在于,所述语义单元为通过大粒度分词方法获得的关键词。
5.根据权利要求1或2所述的方法,其特征在于,在建立倒排索引的过程中,还包括将倒排链所记录的文档按照多维特征进行排序,确保优质文档排在倒排链靠近链头的位置。
6.根据权利要求5所述的方法,其特征在于,所述文档的多维特征包括文档的点击量、文档质量和文档的作者。
7.根据权利要求1所述的方法,其特征在于,还包括:所述关键词是通过采用多粒度分词方法对给定文本进行分词产生的。
8.根据权利要求1所述的方法,其特征在于,还包括:采用插入排序法、冒泡排序法或者选择排序法来按照长度从小到大的顺序对所述多条倒排链进行排序。
9.根据权利要求5所述的方法,其特征在于,还包括:在对所述排序后的多条倒排链进行顺序归并时采用截断方法来进行,具体过程是:召回预设数量的排在倒排链靠近链头位置的文档后提前结束归并。
10.一种实现倒排链快速归并的装置,其包括:
倒排索引建立单元,用于预先建立倒排索引并记录该倒排索引中的各条倒排链的长度;
查询单元,用于通过所述倒排索引查询到与至少一个关键词对应的多条倒排链;
排序单元,用于按照长度从小到大的顺序对所述多条倒排链进行排序;
归并单元,用于从长度最小的倒排链开始对所述排序后的多条倒排链进行顺序归并。
11.根据权利要求10所述的装置,其特征在于,所述倒排索引建立单元还用于建立分别包含检索单元和语义单元的多条倒排链。
12.根据权利要求11所述的方法,其特征在于,所述检索单元为通过小粒度分词方法获得的关键词。
13.根据权利要求11所述的方法,其特征在于,所述语义单元为通过大粒度分词方法获得的关键词。
14.根据权利要求10所述的装置,其特征在于,还包括:优先排序单元,用于将倒排链所记录的文档按照多维特征进行排序,确保优质文档排在倒排链靠近链头的位置。
15.根据权利要求14所述的方法,其特征在于,所述文档的多维特征包括文档的点击量、文档质量和文档的作者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州神马移动信息科技有限公司,未经广州神马移动信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510611489.0/1.html,转载请声明来源钻瓜专利网。