[发明专利]一种处理文档的方法及装置有效
申请号: | 201310567401.0 | 申请日: | 2013-11-13 |
公开(公告)号: | CN104636384B | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 施腾飞;王中飞 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种处理文档的方法及装置,涉及信息搜索技术领域,可以提高新文档入库的实时性。本发明实施例通过对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。本发明适于对新文档入库保存时采用。 | ||
搜索关键词: | 一种 处理 文档 方法 装置 | ||
【主权项】:
1.一种处理文档的方法,其特征在于,包括:对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号,其中,每个词语的编号对应一棵B+树的倒排索引,所述倒排索引用于通过一个词语编号定位一个内部文档编号集,所述内部文档编号集中对应的每篇文档包括所述词语编号对应的词语;为所述文档分配内部文档编号;依次获取所述顺排信息中的第一词语的编号,所述第一词语为所述各个词语中的任一词语;将所述内部文档编号插入到所述第一词语的编号对应的B+树的叶子节点中;将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310567401.0/,转载请声明来源钻瓜专利网。
- 上一篇:处理查询请求的方法及装置
- 下一篇:一种用于电脑的过热报警器