[发明专利]一种基于冷热词分离的索引方法在审
申请号: | 201710579852.4 | 申请日: | 2017-07-17 |
公开(公告)号: | CN110019638A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 王武韬;杨永盛;魏世凯;王峥 | 申请(专利权)人: | 南京烽火软件科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于海量数据的冷热词提取和分离方法以及其倒排索引的存储策略和检索技术,具体是指一种基于冷热词分离的索引方法,包括冷热词分离的索引创建方法和存储策略,包括:读取热词的正则表达式,用于文档内容里的冷热词提取;读取文档内容,该文档的内容用于创建倒排索引和检索;给文档分配唯一的id标识,该id分别存储在冷热词的倒排索引里;对文档的内容进行分词,以实现词到文档id的映射表;对切分的词进行正则表达式匹配,检查是否命中,如果命中,则将该词加入热词的倒排索引H中,如果未命中,则将该词加入冷词倒排索引C中。 | ||
搜索关键词: | 冷热 倒排索引 文档 读取 正则表达式 存储策略 文档内容 热词 索引 命中 海量数据 检索技术 索引创建 未命中 映射表 分词 匹配 检索 存储 分配 创建 检查 | ||
【主权项】:
1.一种基于冷热词分离的索引方法,其特征在于:包括冷热词分离的索引创建方法和存储策略,包括如下步骤:步骤一、读取热词的正则表达式,用于文档内容里的冷热词提取;步骤二、初始化文档id为0,给每篇文档一个唯一的编号;步骤三、读取文档内容,并为文档赋上当前的id值,该文档的内容用于创建倒排索引和检索;步骤四、对文档的内容进行分词,分词是倒排索引必须做的重要步骤,以实现词到文档id的映射表,也即倒排表;步骤五、对刚刚切分的词进行正则表达式匹配,并标示匹配结果;步骤六、检查分词的匹配结果。如果匹配,则将该词加入热词的倒排索引H中,如果不匹配,则将该词加入冷词倒排索引C中。倒排索引H和倒排索引C是2个独立的倒排索引;步骤七、判断是否还有文档,如果有则将文档id增1,并执行步骤三,否则执行步骤八;步骤八:将热词数据的倒排索引H存储到高速的SSD盘上。通过正则表达式提取的热词数据的倒排索引大小不会太大,存储在高速的SSD盘上,可以提高热词数据的检索速度;步骤九:将冷词的倒排索引C存储在相对低速的SATA盘或SAS盘上。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火软件科技有限公司,未经南京烽火软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710579852.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种标准文献检索的排序算法
- 下一篇:数据处理方法、装置及存储介质