[发明专利]搜索关键词的纠错方法、装置和存储介质在审
申请号: | 201810766338.6 | 申请日: | 2018-07-12 |
公开(公告)号: | CN109002521A | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 秦成鹏;张蒙 | 申请(专利权)人: | 北京猫眼文化传媒有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100013 北京市朝阳区望*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索关键词 纠错 置信度 存储介质 搜索请求 搜索 最大程度地 纠错处理 匹配用户 搜索结果 搜索引擎 词库 预置 可信 返回 | ||
本发明实施例提供了一种搜索关键词的纠错方法、装置和存储介质,所述方法包括:当接收到搜索请求时,获取所述搜索请求中的搜索关键词;确定预置的纠错词库中是否包含与所述搜索关键词对应的纠错关键词;若是,则确定所述纠错关键词的置信度;基于所述置信度进行搜索并返回相应的搜索结果。本实施例通过置信度确定是否需要对用户输入的搜索关键词进行纠错处理,不同的置信度可以体现纠错关键词的可信程度,从而使得搜索引擎可以根据置信度最大程度地匹配用户实际的搜索需求。
技术领域
本发明涉及信息搜索技术领域,特别是涉及一种搜索关键词的纠错方法、一种搜索关键词的纠错装置和一种存储介质。
背景技术
搜索引擎已经成为了人们获取信息的一种主要方式。通过在搜索引擎中输入关键词并点击搜索,用户可以获得与该关键词相关的各种信息。
用户在使用搜索引擎进行搜索时,一个正确的搜索关键词对于搜索结果至关重要。由于各种原因,用户输入的搜索关键词可能出现输入错误的情况。例如,使用拼音输入法的用户可能将关键词中的某个汉字错输成了拼音字符,如将“键盘”输入成“键pan”;使用笔画输入法的用户可能将某个汉字错输成了另一个相似的汉字,如将“已经”输入成“己经”等等。此时,搜索引擎便需要对用户输入的关键词进行纠错,然后再返回相应的搜索结果。
现有技术中搜索引擎在对用户输入的错误关键词进行纠错时,主要是通过获取与输入的错误关键词编辑距离最小的词或词对来实现的。但是,使用编辑距离对关键词进行纠错所能覆盖的情况较少,无法根据用户的实际需求对关键词进行纠错。例如,当用户输入的关键词存在多个纠错词时,如果仅仅按照编辑距离从而将输入的关键词改正为编辑距离最小的纠错词,可能并不符合用户实际的搜索需求。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种搜索关键词的纠错方法、一种搜索关键词的纠错装置和相应的一种存储介质。
为了解决上述问题,本发明实施例公开了一种搜索关键词的纠错方法,包括:
当接收到搜索请求时,获取所述搜索请求中的搜索关键词;
确定预置的纠错词库中是否包含与所述搜索关键词对应的纠错关键词;
若是,则确定所述纠错关键词的置信度;
基于所述置信度进行搜索并返回相应的搜索结果。
可选地,所述预置的纠错词库通过如下方式生成:
获取设备的用户会话窗口,所述用户会话窗口通过记录用户采用关键词进行搜索并对搜索结果进行点击的信息生成,所述关键词包括搜索关键词和纠错关键词;
分别统计用户点击与所述搜索关键词对应的初始搜索结果的次数,以及,点击与所述纠错关键词对应的纠错搜索结果的次数;
根据所述用户点击初始搜索结果的次数和纠错搜索结果的次数,确定所述纠错关键词的置信度;
基于所述搜索关键词和对应的纠错关键词及其置信度生成纠错词库。
可选地,所述根据所述用户点击初始搜索结果的次数和纠错搜索结果的次数,确定所述纠错关键词的置信度的步骤包括:
确定所述用户输入的搜索关键词;
若所述搜索关键词对应的初始搜索结果为空,或者,所述用户点击与所述搜索关键词对应的初始搜索结果的次数小于第一预设阈值,则根据所述用户点击纠错搜索结果的次数,确定所述纠错关键词的置信度,所述置信度与所述用户点击纠错搜索结果的次数具有正比例关系。
可选地,所述基于所述置信度进行搜索并返回相应的搜索结果的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猫眼文化传媒有限公司,未经北京猫眼文化传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810766338.6/2.html,转载请声明来源钻瓜专利网。