[发明专利]一种基于树形结构的索引方法有效
申请号: | 201510817738.1 | 申请日: | 2015-11-20 |
公开(公告)号: | CN105426490B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 陈虹宇;罗阳;苗宁 | 申请(专利权)人: | 四川神琥科技有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/951;G06F16/903 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610043 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 树形 结构 索引 方法 | ||
本发明提出了一种基于树形结构的索引方法,用于中文搜索引擎中对中文网页数据的处理,包括:步骤S100,网页数据预处理;(1)提取网页中的文本信息,生成相应的文本并对文本进行编号;(2)生成网页索引文件;(3)将文本中的标点符号去掉,使文本成为短字符串的集合;步骤S200,建立网页数据索引文件。本发明采用二元内相关后续树模型为网页数据创建索引,同时考虑了字索引和词索引的优缺点,在减少索引空间的同时提高了检索效率。
技术领域
本发明涉及数据处理领域,具体涉及一种基于树形结构的索引方法。
背景技术
随着互联网的飞速发展,信息的指数增长,数据形式的多样性,人们很难在海亮的信息中快速地找到符合自己需求的部分。全文数据库的出现,大大改善了这一现状。全文数据库,也称为文本数据库,它是管理海量文本的系统。全文数据库要完成的工作仍然是传统数据库的两大功能:存储和检索,具体而言就是文本数据的存储和任意字符串的检索。作为检索条件的字符串可以是常量型字符串,也可以是正则表达式(或其他方式,比如距离限制等等)表示的一组具有共同特征的字符串集合。
目前比较常见和流行的全文检索模型有以下几种模型:署名文件(SignatureFiles)、位图(Bit Map)、倒排表(Inverted List)、Σ2矩阵Pat树和Pat数组等等。这些模型在专家们的努力下,已经相当成熟并在实践中得到广泛应用。
从书目索引延伸出来的方法就是现在应用最广泛的倒排表模型。它具有创建索引速度较快的特点,在网络搜索引擎中广泛应用。但其所需的存储空间较大,查询速度较慢。署名文件虽然实现简单,但是要找到一个合适的散列函数和一个宽度适合的矢量非常困难,而且因对象而异。如果没有选择好,则查询结果就会出现相当的不确定性。位图文件索引结构思路简单,使用方便,时间效率高,在布尔检索上尤其高效,但是其空间效率很低,即使使用了位图压缩算法,仍然难以接受。Pat树模型的最大优点是检索效率很高,尤其对模型特殊的检索,如前缀检索、范围检索等检索效率更高。然而同位图模型一样,空间效率极低,而且创建过程中空间开销更大,创建效率也很低。Pat数组是对Pat树的修改,它将Pat树的叶节点串行化就得到了Pat数组。Pat数组虽然很大程度上压缩了创建过程中的开销,但是,因为采用数组的存储方式,其创建和合并需要移动大量的数据,动态性很难令人满意。
发明内容
至少部分的解决现有技术中存在的问题,本发明提出一种基于树形结构的索引方法,用于中文搜索引擎中对中文网页数据的处理,包括:
步骤S100,网页数据预处理;
步骤S200,建立网页数据索引文件。
其中,步骤S100包括:
(1)提取网页中的文本信息,生成相应的文本并对文本进行编号;
(2)生成网页索引文件;
(3)将文本中的标点符号去掉,使文本成为短字符串的集合。
所述网页数据索引是基于二元内相关后续树创建的索引。
所述的基于树形结构的索引方法,其中,步骤S100进一步包括:
首先对抓取的原始网页进行分类,然后再按照分类分别提取网页中的文本信息,得到分类后的文本信息;生成网页索引文件的过程包括为原始网页的每个分类分别建立网页索引文件。
所述的基于树形结构的索引方法,其中,在步骤S200中,建立网页数据索引文件进一步包括:
首先,判断每个分类的文本信息的容量,当所述分类的容量小于1GB时,为所述分类的文本信息建立字索引,当所述分类的容量大于等于1GB时,为所述分类的文本信息建立词索引。
所述的基于树形结构的索引方法,其中,所述二元内相关后续树定义如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川神琥科技有限公司,未经四川神琥科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510817738.1/2.html,转载请声明来源钻瓜专利网。