[发明专利]一种信息检索的方法及装置在审
申请号: | 201611090773.9 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106776929A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 童克冬 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 胡彬,邓猛烈 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 检索 方法 装置 | ||
1.一种信息检索的方法,其特征在于,所述方法包括:
将大数据平台软件迁移到一个预设软硬件平台,所述迁移包括开发环境的迁移和运行环境的迁移,以及应用软件的移植和适配;
在所述迁移之后,在索引建立过程和信息检索过程中,通过并行处理、数据缓存、分片处理、读写分离和负载分担,对信息的采集、存储及查询进行性能优化。
2.根据权利要求1所述的方法,其特征在于,所述索引建立过程,包括:
将采集到的各文档放到各服务器的本地文件系统的预设目录中,通过分词组件Tokenizer获取词元Token,所述分词组件用于将文档分成单独的单词、去除标点符号和去除停词;
由语言处理组件Linguistic Processor对所述词元Token通过语言处理组件得到词Term,所述语言处理组件用于变为小写Lowercase、将单词缩减为词根形式和将单词转变为词根形式;
由索引组件Indexer对所述词Term进行索引处理组件得到索引-文档倒排链表Posting List,所述索引处理组件用于为所述词Term创建字典、对所述字典按字母顺序进行排序并合并相同的词Term成为文档倒排Posting List的链表;
通过索引存储Storage将所述索引-文档倒排链表Posting List写入磁盘文件系统。
3.根据权利要求1所述的方法,其特征在于,所述信息检索过程,包括:
将输入的查询语句SQL,经过词法分析得到单词关键字;
通过语法分析组件对所述单词关键字进行语法分析;
通过所述语言处理组件处理并输出词Term;
搜索索引并根据上一环节的词Term从磁盘中的索引文件中进行搜索;
经过搜索索引组件检索得到符合条件的文档,再由结果排序组件进行排序后返回查询结果。
4.根据权利要求3所述的方法,其特征在于,所述经过搜索索引组件检索得到符合条件的文档,包括:
在反向索引表中,分别找出包含第一关键词、第二关键词和第三关键词的文档链表;
对包含所述第一关键词和所述第二关键词的链表进行合并操作,得到同时包含所述第一关键词和所述第二关键词的文档链表;
再将同时包含所述第一关键词和所述第二关键词的文档链表与所述第三关键词的文档链表进行差操作,去除包含第三关键词的文档,得到包含第一关键词且包含第二关键词且不包含第三关键词的文档链表,所述包含第一关键词且包含第二关键词且不包含第三关键词的文档链表为符合条件的文档。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述通过并行处理、数据缓存、分片处理、读写分离和负载分担,对信息的采集、存储及查询进行性能优化,包括:
在并行处理的数据采集与传输、索引建立与更新、信息读取与检索的数据处理中,针对不同来源、不同类型的数据,按照一定的时间周期进行建表,存储和检索,并实现对数据的并发处理;数据采集与传输将采集到的数据分门别类地放到相应的信息链表,通过不同的处理线程进行分词、语言处理、索引及存储处理,再将索引数据对应的collection写入到不同节点的不同硬盘及分区的不同索引文件中;信息检索时,接收输入查询语句后,经过词法、语法、语言处理组件后,并发调用索引搜索线程并发搜索不同节点上的不同硬盘及分区上的不同索引文件,将检索结果分别进行相似度计算和排序,再统一进行结果排序,并将查询结果进行页面展示;
在数据缓存的信息检索时,采用预先申请内存、缓存常用数据和过程结果方式;文本数据从采集到传输,到索引建立与更新,到信息读取与检索的数据处理过程中,通过内存对数据进行缓存,最后仅需一次写盘操作;
在分片处理的信息检索时,对大数据量的信息检索采取分片和分包处理;采用分片响应策略处理大数据量的信息查询时,在访问、查询机处理大数据量信息时,对用于程序的访问查询采用分片响应方式,分批次返回查询结果;客户端对接收到的数据进行处理的过程是携带返回数据的过程;
在读写分离的信息检索中,将距离当前越近的近期数据独立于历史数据分开存储,并且用第一存储介质来存储所述近期数据,用第二存储介质来存储所述历史数据;
在负载分担的信息检索时,采用负载分担的方式,将用户的查询请求均匀分发到不同Solr节点上,各个节点接收到查询请求后,对本机的索引数据库进行检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611090773.9/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置