[发明专利]一种建立、搜索索引树的方法及装置在审
申请号: | 201711424349.8 | 申请日: | 2017-12-25 |
公开(公告)号: | CN110019649A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 宋昊文 | 申请(专利权)人: | 北京新媒传信科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/903 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 子索引 指针数组 根节点 索引树 建立索引 搜索索引 汉字 搜索 关键字匹配 拼音首字母 快速搜索 拼音字母 搜索过程 文本数据 获取源 源数据 构建 指向 占用 终端 | ||
1.一种建立索引树的方法,其特征在于,包括:
获取源数据中的第一字符;
基于所述第一字符建立第一子索引树,如果所述第一字符为汉字,则所述第一子索引树包括以所述第一字符的各个拼音字母命名的节点,所述第一子索引树包括至少一个节点;
在索引树的第一根节点中插入第一指针数组,所述指针数组指向所述第一子索引树的第二根节点,如果所述第一字符为汉字,则所述第二根节点为以所述第一字符的拼音首字母命名的节点。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取源数据中的第二字符,所述第二字符为所述源数据中所述第一字符的下一个字符;
在所述第一子索引树中的叶节点中插入第二指针数组,所述第二指针数组指向所述第二字符对应的第二子索引树的第三根节点,所述第一子索引树中的叶节点为以所述第一字符的末尾拼音字母命名的节点。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述第一字符为非汉字字符,则所述第一子索引树包括一个以所述第一字符命名的节点,所述第一子索引树的第二根节点与叶节点为同一个节点。
4.根据权利要求1所述的方法,其特征在于,基于所述第一字符建立第一子索引树的步骤,包括:
如果所述第一字符为汉字,确定所述第一根节点中是否存在第三指针数组,所述第三指针数组指向的第一节点的名称与所述第一字符的拼音首字母相同;
如果存在,则确定所述第一节点的子节点的名称中是否存在与所述第一字符的第二个拼音字母相同的字母;
如果不存在与所述第一字符的第二个拼音字母相同的字母,则基于所述第一字符的拼音首字母之后的各个拼音字母建立至少一个第二节点;
利用所述第一节点以及各个所述第二节点建立所述第一子索引树,所述第一子索引树中的各个节点组成的路径与所述第一字符的拼音字母顺序相同。
5.根据权利要求1所述的方法,其特征在于,在索引树的第一根节点中插入第一指针数组,所述指针数组指向所述第一子索引树的第二根节点的步骤,包括:
确定所述第一子索引树中的第二根节点;
基于所述第二根节点的名称确定用于指向所述第二根节点的第一指针数组在第一根节点中的插入位置,所述第一根节点中的指针数组基于其指向的节点的名称进行排列;
在所述插入位置中插入所述第一指针数组。
6.根据权利要求1所述的方法,其特征在于,
所述第一指针数组包括所述第二根节点的信息,所述第一字符在所述源数据中的位置信息以及所述源数据的标识;
当所述第一字符为汉字时,所述第一指针数组还包括所述第一字符的拼音信息以及所述第一字符的汉字信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述第一子索引树中的第二根节点中插入第二指针数组,所述第二指针数组指向第二字符对应的第二子索引树的第三根节点,所述第二字符为所述源数据中所述第一字符的下一个字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新媒传信科技有限公司,未经北京新媒传信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711424349.8/1.html,转载请声明来源钻瓜专利网。