[发明专利]搜索词的纠错方法和装置有效
申请号: | 201410406835.7 | 申请日: | 2014-08-18 |
公开(公告)号: | CN104156454B | 公开(公告)日: | 2018-09-18 |
发明(设计)人: | 杨月奎;张海龙;肖立鹏;黄玉兰;刘冰;王刚;王迪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;张永明 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索词 纠错 方法 装置 | ||
本发明公开了一种搜索词的纠错方法和装置。其中,搜索词的纠错方法包括:获取搜索词;拆分搜索词,得到多个第一搜索词片段;对第一搜索词片段进行纠错,得到多个第二搜索词片段;拼接多个第二搜索词片段,得到候选结果;判断候选结果是否是关联数据库中的关联数据;以及在判断出候选结果是关联数据库中的关联数据的情况下,确定候选结果为对搜索词进行纠错后的目标搜索词。通过本发明,解决了现有技术中搜索词的查询纠错方式因需要依赖大量用户记录而导致的覆盖率较低的问题,实现了可以不依赖用户记录对搜索词的纠错,进而达到了提高对搜索词进行纠错的覆盖率和独立性的效果。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种搜索词的纠错方法和装置。
背景技术
在用户利用搜索词进行相关搜索时,通常需要对用户输入的搜索词进行查询纠错,现有技术中通常采用以下两种方式进行查询纠错:
1)基于用户会话(session)进行查询纠错,该查询纠错方式主要根据用户搜索的会话日志(session log),挖掘出用户主动改写的候选纠错对,作为纠错后的搜索词。
2)基于大量用户记录的转义概率纠错:此种查询纠错方式筛选点击量比较高的搜索日志作为正确的候选结果集,然后将搜索词(query)进行变换后,在候选集合中查找最相近的作为正确的搜索词。
以上两种进行查询纠错的方式,在对搜索词进行纠错过程中,存在以下缺点:
1)需要依赖大量的用户记录,在没有大量用户记录做支持的情况下,将导致无法对搜索词进行查询纠错;
2)对于用户意图较为发散,大而全的情况,无法将用户需求聚焦到一个领域。
针对相关技术中搜索词的查询纠错方式因需要依赖大量用户记录而导致的覆盖率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种搜索词的纠错方法和装置,以至少解决现有技术中搜索词的查询纠错方式因需要依赖大量用户记录而导致的覆盖率较低的技术问题。
根据本发明实施例的一个方面,提供了一种搜索词的纠错方法。
根据本发明实施例的搜索词的纠错方法包括:获取搜索词,其中,所述搜索词为长尾关键词;拆分所述搜索词,得到多个第一搜索词片段;对每个所述第一搜索词片段进行纠错,得到纠错后的多个第二搜索词片段;拼接所述多个第二搜索词片段,得到候选结果;判断所述候选结果是否是关联数据库中的关联数据,其中,所述关联数据库中存储有多组纠错后的关联数据;以及在判断出所述候选结果是所述关联数据库中的关联数据的情况下,确定所述候选结果为对所述搜索词进行纠错后的目标搜索词。
根据本发明实施例的另一方面,还提供了一种搜索词的纠错装置。
根据本发明实施例的搜索词的纠错装置包括:获取单元,用于获取搜索词,其中,所述搜索词为长尾关键词;拆分单元,用于拆分所述搜索词,得到多个第一搜索词片段;纠错单元,用于对每个所述第一搜索词片段进行纠错,得到纠错后的多个第二搜索词片段;拼接单元,用于拼接所述多个第二搜索词片段,得到候选结果;判断单元,用于判断所述候选结果是否是关联数据库中的关联数据,其中,所述关联数据库中存储有多组纠错后的关联数据;以及确定单元,用于在判断出所述候选结果是所述关联数据库中的关联数据的情况下,确定所述候选结果为对所述搜索词进行纠错后的目标搜索词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410406835.7/2.html,转载请声明来源钻瓜专利网。