[发明专利]搜索库生成方法及装置有效
申请号: | 201611232569.6 | 申请日: | 2016-12-27 |
公开(公告)号: | CN106708285B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 李延平;姜佩;潘小兵 | 申请(专利权)人: | 优地网络有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 阳开亮 |
地址: | 518000 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拼音搜索 拼音组合 搜索 搜索关键字 库生成 预设 过滤 多音字 信息处理领域 多音字搜索 准确率 词句 | ||
1.一种搜索库生成方法,其特征在于,所述搜索库生成方法包括:
建立第一拼音搜索库,所述第一拼音搜索库包括词句的全部拼音组合;
获取用户输入的搜索关键字;
按预设拼音组合规则对所述搜索关键字进行过滤,生成第一搜索拼音组合,具体地,获取用户采纳的搜索结果词句;将所述搜索关键字和所述搜索结果词句建立关联,并生成关联记录;基于所述关联记录,获取同一个搜索结果词句所对应的所有搜索关键字;基于所述同一个搜索结果词句所对应的所有搜索关键字,生成第一搜索拼音组合;
基于所述第一搜索拼音组合,按预设多音字搜索规则对所述第一拼音搜索库进行过滤,将所述第一拼音搜索库中除所述第一搜索拼音组合和预设拼音组合以外的其余拼音组合删除,生成第二拼音搜索库,具体地,基于所述关联记录,统计所述关联记录中同一个搜索关键字关联同一个搜索结果词句的关联次数占比;过滤所述第一搜索拼音组合中,所述关联次数占比小于预设关联次数占比阈值的搜索关键字,以生成第二搜索拼音组合;基于所述第二搜索拼音组合对第一拼音搜索库进行过滤,生成第二拼音搜索库。
2.根据权利要求1任一项所述的搜索库生成方法,其特征在于,所述建立第一拼音搜索库,所述第一拼音搜索库包括词句的全部拼音组合,包括:
获取词句中的文字个数和多音字个数;
基于所述文字个数和所述多音字个数,获取所述词句的全部拼音组合;
基于词句的全部拼音组合建立第一拼音搜索库。
3.一种搜索库生成装置,其特征在于,所述搜索库生成装置包括:
第一拼音搜索库建立单元,用于建立第一拼音搜索库,所述第一拼音搜索库包括词句的全部拼音组合;
搜索关键字获取单元,用于获取用户输入的搜索关键字;
第一搜索拼音组合生成单元,用于按预设拼音组合规则对所述搜索关键字进行过滤,生成第一搜索拼音组合;
所述第一搜索拼音组合生成单元包括:
搜索结果词句获取模块,用于获取用户采纳的搜索结果词句;
关联记录生成模块,用于将所述搜索关键字和所述搜索结果词句建立关联,并生成关联记录;
搜索关键字获取模块,用于基于所述关联记录,获取同一个搜索结果词句所对应的所有搜索关键字;
第一搜索拼音组合生成模块,用于基于所述同一个搜索结果词句所对应的所有搜索关键字,生成第一搜索拼音组合;
第二拼音搜索库生成单元,用于基于所述第一搜索拼音组合,按预设多音字搜索规则对所述第一拼音搜索库进行过滤,将所述第一拼音搜索库中除所述第一搜索拼音组合和预设拼音组合以外的其余拼音组合删除,生成第二拼音搜索库;
所述第二拼音搜索库生成单元包括:
关联次数占比统计模块,用于基于所述关联记录,统计所述关联记录中同一个搜索关键字关联同一个搜索结果词句的关联次数占比;
第二搜索拼音组合生成模块,用于过滤所述第一搜索拼音组合中,所述关联次数占比小于预设关联次数占比阈值的搜索关键字,以生成第二搜索拼音组合;
第二拼音搜索库生成模块,用于基于所述第二搜索拼音组合对第一拼音搜索库进行过滤,生成第二拼音搜索库。
4.根据权利要求3所述的搜索库生成装置,其特征在于,所述第一拼音搜索库建立单元包括:
个数获取模块,用于获取词句中的文字个数和多音字个数;
拼音组合获取模块,用于基于所述文字个数和所述多音字个数,获取所述词句的全部拼音组合;
第一拼音搜索库建立模块,用于基于词句的全部拼音组合建立第一拼音搜索库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于优地网络有限公司,未经优地网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611232569.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有倾斜端面的裸露型光纤阵列的制作方法及其基板
- 下一篇:触控笔