[发明专利]搜索库生成方法及装置有效
申请号: | 201611232569.6 | 申请日: | 2016-12-27 |
公开(公告)号: | CN106708285B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 李延平;姜佩;潘小兵 | 申请(专利权)人: | 优地网络有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 阳开亮 |
地址: | 518000 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拼音搜索 拼音组合 搜索 搜索关键字 库生成 预设 过滤 多音字 信息处理领域 多音字搜索 准确率 词句 | ||
本发明适用于信息处理领域,提供了一种搜索库生成方法及装置。所述方法包括:建立第一拼音搜索库,所述第一拼音搜索库包括词句的全部拼音组合,获取用户输入的搜索关键字,按预设拼音组合规则对所述搜索关键字进行过滤,生成第一搜索拼音组合,基于所述第一搜索拼音组合,按预设多音字搜索规则对所述第一拼音搜索库进行过滤,生成第二拼音搜索库。通过上述方法能够提高多音字拼音搜索效率和搜索准确率。
技术领域
本发明实施例属于信息处理领域,尤其涉及一种搜索库生成方法及装置。
背景技术
在IPTV/OTT、智能电视等产品中,由于遥控器的限制,不能直接输入汉字,基于汉字拼音或者汉字拼音首字母的输入和搜索方法是很常用的一种查询方法。
而汉字存在多音字,同一个字在不同词语或语句中可以有不同的读音。例如,新闻《壳牌重启北冰洋油气勘探遭抗议》中“壳”的读音应为[qiào],但现实情况是很多人会把“壳”读为[ké],以至于在百度搜索中询问“壳牌怎么读”的结果超过千条。现有技术中,词句中汉字对应的拼音是由计算机根据词句中每个汉字对应的标准拼音读音拼接起来的,因为读音只能有一个并且汉字有多音字的问题,词句翻译的汉字拼音很可能出现错误,最简单的方法是通过人工纠正错误拼音读音进行搜索。某些复杂系统是根据词语在语句中的语义、位置、文法来分析汉字的多音字读音,这种方法需要维护一个复杂的语义库,而且随着多音字使用语义、位置、文法的不同,语义库需要不断扩展和更新,需要较高的技术实现能力和维护成本。针对上述技术方法实现的词句用拼音搜索准确度较低,搜索效率也比较低,开发维护成本较高,自动化程度低。
故,有必要提出一种新的技术方案,以解决上述技术问题。
发明内容
本发明实施例提供了一种搜索库生成方法及装置,旨在解决现有的拼音输入搜索因存在多音字导致搜索不准确且搜索效率较低的问题。
本发明实施例是这样实现的,一种搜索库生成方法,所述方法包括:
建立第一拼音搜索库,所述第一拼音搜索库包括词句的全部拼音组合;
获取用户输入的搜索关键字;
按预设拼音组合规则对所述搜索关键字进行过滤,生成第一搜索拼音组合;
基于所述第一搜索拼音组合,按预设多音字搜索规则对所述第一拼音搜索库进行过滤,生成第二拼音搜索库。
进一步地,所述按预设拼音组合规则对所述搜索关键字进行过滤,生成第一搜索拼音组合,包括:
获取用户采纳的搜索结果词句;
将所述搜索关键字和所述搜索结果词句建立关联,并生成关联记录;
基于所述关联记录,获取同一个搜索结果词句所对应的所有搜索关键字;
基于所述同一个搜索结果词句所对应的所有搜索关键字,生成第一搜索拼音组合。
进一步地,所述基于所述同一个搜索结果词句所对应的所有搜索关键字,生成第一搜索拼音组合,包括:
基于所述关联记录,统计所述关联记录中同一个搜索关键字关联同一个搜索结果词句的关联次数占比;
过滤所述第一搜索拼音组合中,所述关联次数占比小于预设关联次数占比阈值的搜索关键字,以生成第二搜索拼音组合;
对应的,所述基于所述第一搜索拼音组合,按预设多音字搜索规则对所述第一拼音搜索库进行过滤,生成第二拼音搜索库,包括:
基于所述第二搜索拼音组合对第一拼音搜索库进行过滤,生成第二拼音搜索库。
进一步地,所述基于第一搜索拼音组合,按预设多音字搜索规则对第一拼音搜索库进行过滤,生成第二拼音搜索库,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于优地网络有限公司,未经优地网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611232569.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有倾斜端面的裸露型光纤阵列的制作方法及其基板
- 下一篇:触控笔