[发明专利]一种处理文档的方法及装置有效
申请号: | 201310567401.0 | 申请日: | 2013-11-13 |
公开(公告)号: | CN104636384B | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 施腾飞;王中飞 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 文档 方法 装置 | ||
本发明公开一种处理文档的方法及装置,涉及信息搜索技术领域,可以提高新文档入库的实时性。本发明实施例通过对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。本发明适于对新文档入库保存时采用。
技术领域
本发明涉及信息搜索技术领域,尤其涉及一种处理文档的方法及装置。
背景技术
用户对网页进行检索时,一般对网页的时新性要求较高。现有技术中对新文档的处理通常采用以下方式:当新文档累积到一定程度之后与旧文档进行合并,全部文档重新建立索引;或者,在新文档入库时,将新索引累积到一定的文档量时追加到旧索引后边。
然而,采用现有技术处理新文档时,需要对新文档进行累积,当新文档累积到一定程度之后才建立索引,或者将新索引累积到一定的文档量后追加到旧索引后面,导致新文档不能及时地被用户检索到,实时性较差。
发明内容
本发明的实施例提供一种处理文档的方法及装置,可以提高新文档入库的实时性。
第一方面,本发明的实施例提供一种处理文档的方法,包括:
对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;
为所述文档分配内部文档编号;
将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。
第二方面,本发明的实施例提供一种处理文档的装置,包括:
抽取单元,用于对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;
分配单元,用于为所述文档分配内部文档编号;
添加单元,用于将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号;
保存单元,用于将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。
本发明实施例提供一种处理文档的方法及装置,通过对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。与现有技术中处理新文档时,需要对新文档进行累积,当新文档累积到一定程度之后才建立索引或者将新索引累积到一定的文档量后追加到旧索引后面,导致新文档不能及时地被用户检索到,实时性较差相比,本发明实施例可以对单篇文档执行入库保存,从而可以提高文档入库的实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种处理文档的方法的流程图;
图2为本发明实施例提供的另一种处理文档的方法的流程图;
图3为本发明实施例提供的一种B+树示意图;
图4为本发明实施例提供的另一种B+树示意图;
图5为本发明实施例提供的另一种B+树示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310567401.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:处理查询请求的方法及装置
- 下一篇:一种用于电脑的过热报警器