[发明专利]基于扩展查询似然模型的动态后继树索引裁剪方法有效
申请号: | 201210307005.X | 申请日: | 2012-08-27 |
公开(公告)号: | CN102841945A | 公开(公告)日: | 2012-12-26 |
发明(设计)人: | 霍林;邹先泽 | 申请(专利权)人: | 广西大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广西南宁汇博专利代理有限公司 45114 | 代理人: | 邓晓安 |
地址: | 530004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 扩展 查询 模型 动态 后继 索引 裁剪 方法 | ||
技术领域
本发明涉及信息检索与数据压缩技术领域,具体涉及一种基于扩展查询似然模型的动态后继树索引裁剪方法。
背景技术
随着以社交网络为代表的Web 2.0时代的到来,每时每刻都有大量文本数据被生产出来,对这些海量文本数据或者大数据建立索引必然导致庞大的索引文件。同时,为支持更加丰富而多样化的查询检索功能,存储在索引文件中的信息类型和数量也较以前有大量的增加,这无疑进一步加剧了索引文件的膨胀。庞大索引文件不仅占用大量的磁盘空间,更使得查询时访问索引文件时间开销过大,磁盘I/O的过于频繁与缓慢的磁盘访问速度,已经成为影响效率提升的重大瓶颈之一。此外,新应用场景的出现,如移动终端检索(search in mobile devices)、个人电脑桌面搜索(desktop search)、P2P检索(Peer to Peer search)等,对信息检索系统的各项性能提出了更严格的要求,迫使现代信息检索系统必须重新考虑下列问题:哪一部分索引数据应该被存储于索引文件之中。
目前降低索引文件大小的最常见方法是使用数据压缩技术,数据压缩技术一般存在两种类型:无损压缩和有损压缩。无损压缩采用高效的数据编码方式表示记录在索引结构中的数据信息,比如Delta编码、Golomb编码和可变长字节编码等,压缩过程中不删除任何索引信息。有损压缩则是通过删除在查询时被认为是无用的索引信息的方式达到降低索引文件大小的目的。目前,对倒排索引文件无损压缩方法的研究已经有许多成熟的解决方案,也有一些对动态后继树索引文件进行无损压缩的相关研究。无损压缩的优势在于其安全性高,不会损失任何索引信息。与无损压缩研究不同,针对索引文件的有损压缩研究,即索引裁剪技术研究,却并不是很多。依据目前公开可查询的国内外文献来看,索引裁剪技术研究主要针对倒排索引文件进行,国内的相关研究更少,而且没有针对动态后继树索引文件进行索引裁剪的相关研究。在充分利用动态后继树索引结构针对中文信息检索的优越性的同时,必须注意到动态后继树索引结构的不足:产生的索引文件比较大,膨胀比高。因此针对动态后继树索引的特点进行相应的索引裁剪技术研究,从而弥补其索引文件膨胀比高的不足就具有极大理论价值和实践意义。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于扩展查询似然模型的动态后继树索引裁剪方法。
为了实现上述目的,本发明采用了以下技术方案:一种基于扩展查询似然模型的动态后继树索引裁剪方法,以完整的动态后继树索引作为处理对象,对索引中的树叶信息进行重要性评估,然后删除不重要的树叶信息,形成裁剪后的动态后继树索引;
该方法依次包括以下步骤:
(1)针对动态后继树索引结构,创建完整的动态后继树索引;
(2)依次遍历索引中每一篇文档包含的不同二元词项,提取索引统计信息;
(3)利用重要性评分公式:
,计算索引中的二元词项在其当前出现文档中的重要性评分,然后对二元词项进行重要性降序排列;其中:是二元词项在文档中的出现次数,是二元词项在文档集中的出现次数,是文档集的长度,为文档的长度,为平滑因子;该评分公式由一系列的公式推导而形成:首先从传统的查询似然模型出发,引入高效的狄尼克雷平滑机制对此查询似然模型进行扩展;然后在信息论K-L距离定义的基础上采用算术平均数的方式定义了对称K-L距离,从而更加平衡的度量文档与文档集之间的差异;最后评估文档中的二元词项对文档对称K-L距离的贡献度即;
(4)输入裁剪参数、,让裁剪参数依次分别和索引中与一篇文档关联的所有树叶信息的个数进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信息Leaf Information(LI);裁剪参数在取值范围内的实际取值可以根据裁剪数据的实际情况、实际需求输入,通过不同的取值,可以得到我们需要的不同裁剪效果;
(5)形成并输出裁剪后的动态后继树索引。
上述的二元词项由树根词项和与树根词项直接关联的树叶词项组成的整体,是不可分割。所述的树根词项是指在创建动态后继树索引时,位于树根的分词词项;而树叶词项则是树根的后继,指位于树叶的分词词项。
上述的索引统计信息包括二元词项在每一篇文档中出现的次数、含有某一个二元词项的文档数目、二元词项在文档集中总的出现次数、每一篇文档的长度(即包含二元词项的个数)和文档集的总长度(即所有文档长度之和)、与一篇文档关联的所有树叶信息的个数等,索引统计信息还可包括有其他信息,不限于上述提及的统计信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210307005.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种LED灯用包装盒
- 下一篇:包装件