[发明专利]一种基于树形结构的索引方法有效

申请号：	201510817738.1	申请日：	2015-11-20
公开（公告）号：	CN105426490B	公开（公告）日：	2019-03-26
发明（设计）人：	陈虹宇;罗阳;苗宁	申请（专利权）人：	四川神琥科技有限公司
主分类号：	G06F16/901	分类号：	G06F16/901;G06F16/951;G06F16/903
代理公司：	北京天奇智新知识产权代理有限公司 11340	代理人：	郭霞
地址：	610043 四川省成都市高新***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种基于树形结构的索引方法，用于中文搜索引擎中对中文网页数据的处理，包括：步骤S100，网页数据预处理；(1)提取网页中的文本信息，生成相应的文本并对文本进行编号；(2)生成网页索引文件；(3)将文本中的标点符号去掉，使文本成为短字符串的集合；步骤S200，建立网页数据索引文件。本发明采用二元内相关后续树模型为网页数据创建索引，同时考虑了字索引和词索引的优缺点，在减少索引空间的同时提高了检索效率。
搜索关键词：	一种基于树形结构索引方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于树形结构的索引方法，用于中文搜索引擎中对中文网页数据的处理，包括：步骤S100，网页数据预处理；步骤S200，建立网页数据索引文件；其中，步骤S100包括：(1)提取网页中的文本信息，生成相应的文本并对文本进行编号；(2)生成网页索引文件；(3)将文本中的标点符号去掉，使文本成为短字符串的集合；其中，所述网页数据索引是基于二元内相关后续树创建的索引；其中，所述二元内相关后续树定义如下：(1)后续：对文本T中的字符串a1a2来说，a2称为a1的后续，文本T最后一个字符的后续称为结束符，用“#”来表示；文本中总会有相同的字符出现，具体来说就是有相同的字或词，如果某一个索引项a出现了k次，a不是文本的结尾，那么a有k个后续，记作a[s]，s＝1，2，…，k；(2)一元后续表达式与一元后续树：假设全文T是由字符串a1，a2，…，an，#组成的，如果其中的ai1＝ai2＝…＝aik是相同的字符，记为a，而ai1+1，ai2+1，…，aik+1分别是它们的后续，则所有的a和它的后续就构成了一个一元后续表达式a(ai1+1,ai2+1,…,aik+1)，用一棵树来描述此表达式，a是树根，ai1+1，ai2+1，…，aik+1是它的后续结点，这棵树就是a的一元后续树；(3)二元后续表达式与二元后续树：对一元后续表达式进行扩展，如果原文T中有相同的字符串ai1ai1+1＝ai2ai2+1＝…＝aikaik+1，记作ab，则所有的ab和其后续就构成了一个二元后续表达式，记作a(b(ai1+2,ai2+2,…,aik+2))；(4)a的二元后续树表示为：a是树根，ai1+1，ai2+1，…，aik+1是a的后续，(ai1+1,tag1)，(ai2+1,tag2)，…，(aik+1,tagk)则作为a的后续结点，其中，tag1，tag2…，tagk分为是以ai1+1，ai2+1，…，aik+1为根的一元后续树中ai1+1，ai2+1，…，aik+1的后续所在分支的序号；(5)内相关后续树的定义：由一个源文档库中全部文档的所有索引项的后续树组成的森林，叫做这个源文档库的内相关后续树，当所述后续树为二元后续树时，该内相关后续树为二元内相关后续树。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川神琥科技有限公司，未经四川神琥科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510817738.1/，转载请声明来源钻瓜专利网。

上一篇：一种用于离线搜索的小规模索引数据存储方法
下一篇：基于内存计算的分布式可扩展数据搜索系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于树形结构的索引方法有效

专利文献下载