[发明专利]一种搜索引擎索引构建方法及装置有效
申请号: | 201610127675.1 | 申请日: | 2016-03-07 |
公开(公告)号: | CN107168966B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 闫观清;贺三元 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索引擎 索引 构建 方法 装置 | ||
1.一种搜索引擎索引构建方法,应用于用户设备,所述方法构建的搜索引擎索引用于搜索所述用户设备的本地存储内容,其特征在于,该方法包括:
对文档中的文本串进行切分处理,得到对应的文本子串;
根据预设的特征提取规则,确定每个文本子串的特征;所述特征提取规则包括:动态提取文本子串前m个字符的拼音首字母序列确定为该文本子串的特征,m≥1;
针对任意文本子串,将其索引信息写入以其特征作为标识的索引文件中,其中,每种特征至少对应一个索引文件;
其中,所述对文档中的文本串进行切分处理,包括:
将长度为n的文本串切分为n个文本子串,所述n个文本子串分别为:该文本串的第1~n个字符、该文本串的第2~n个字符、……该文本串的第n个字符。
2.根据权利要求1所述的方法,其特征在于,所述m的取值,根据待处理文本子串第1个字符的首字母使用频率动态确定。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当索引文件的体积超过预设阈值时,对该索引文件进行拆分存储处理。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每种特征,根据该特征对应的文本串数量,预先配置该特征对应的索引文件数量。
5.一种基于如权利要求1至4任一项所述搜索引擎索引的搜索方法,其特征在于,该方法包括:
根据所述特征提取规则,确定搜索文本串的特征;
在以所述搜索文本串的特征为标识的索引文件中,查找所述搜索文本串的索引信息;
根据索引信息查找结果生成搜索结果。
6.一种搜索引擎索引构建装置,应用于用户设备,所述装置构建的搜索引擎索引用于搜索所述用户设备的本地存储内容,其特征在于,该装置包括:
切分模块,用于对文档中的文本串进行切分处理,得到对应的文本子串;
特征确定模块,用于根据预设的特征提取规则,确定每个文本子串的特征;所述特征提取规则包括:动态提取文本子串前m个字符的拼音首字母序列确定为该文本子串的特征,m≥1;
索引信息写入模块,用于针对任意文本子串,将其索引信息写入以其特征作为标识的索引文件中,其中,每种特征至少对应一个索引文件;
其中,所述切分模块,具体用于:
将长度为n的文本串切分为n个文本子串,所述n个文本子串分别为:该文本串的第1~n个字符、该文本串的第2~n个字符、……该文本串的第n个字符。
7.根据权利要求6所述的装置,其特征在于,所述m的取值,根据待处理文本子串第8个字符的首字母使用频率动态确定。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
索引文件拆分模块,用于当索引文件的体积超过预设阈值时,对该索引文件进行拆分存储处理。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
索引文件配置模块,用于针对每种特征,根据该特征对应的文本串数量,预先配置该特征对应的索引文件数量。
10.一种基于如权利要求6至9任一项所述搜索引擎索引的搜索装置,其特征在于,该装置包括:
特征确定模块,用于根据所述特征提取规则,确定搜索文本串的特征;
索引信息查找模块,用于在以所述搜索文本串的特征为标识的索引文件中,查找所述搜索文本串的索引信息;
搜索结果生成模块,用于根据索引信息查找结果生成搜索结果。
11.一种搜索系统,应用于用户设备,其特征在于,该系统包括如权利要求6至9任一项所述的索引构建装置,以及如权利要求10所述的搜索装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610127675.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:特征工程策略确定方法及装置
- 下一篇:目标知识点的获取方法及装置