[发明专利]检索词的同义变换方法、装置及服务器有效
申请号: | 201711216118.8 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107885875B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 张晓寒;许超;王彬;梁海金;李莹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955;G06F40/247 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王珺;徐瑞红 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 同义 变换 方法 装置 服务器 | ||
本发明提供一种检索词的同义变换方法、装置及服务器,所述方法包括:获取待检索词,所述待检索词为没有卡片召回的检索词;根据所述待检索词,采用共现分析方法获取候选检索词;计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词。本发明实施例通过采用共现分析方法获取候选检索词,然后计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词,能够更好的覆盖长尾检索词,确保变换检索词后的卡片召回率。
技术领域
本发明涉及信息搜索技术领域,具体涉及一种检索词的同义变换方法、装置及服务器。
背景技术
随着信息技术的飞速发展,当今社会进入了信息爆炸的时代,人们越来越多地借助网络来寻找自己需要的信息,因此检索成为人们工作、生活不可或缺的一部分。人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
用户进行检索操作时,服务器根据用户输入的检索词(query)识别出用户需求的实体,并将它的多个相关实体组成带有图片、推荐理由、主题的推荐卡片展示给用户,目的是通过检索词关联的实体知识,为用户提供扩展知识的阅读体验。
在检索操作时,对于很多长尾检索词不能够召回实体卡片,为了解决这一技术问题,传统技术中利用检索词同义变换技术将无卡片召回的检索词变换到主意图相同且有卡片召回的检索词上。例如,通过为检索词配置模板,将命中模板的同义检索词变换为目标检索词,或者通过同义词替换的方式,提取出检索词的特征词与中心词,再通过特征词库与同义词库得到检索词的变换规则。但是,上述方法的核心都是进行检索词的同义变换,这样会导致产品覆盖较小。
发明内容
本发明实施例提供一种检索词的同义变换方法、装置及服务器,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种检索词的同义变换方法,包括:
获取待检索词,所述待检索词为没有卡片召回的检索词;
根据所述待检索词,采用共现分析方法获取候选检索词;
计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词。
结合第一方面,本发明在第一方面的第一实施方式中,采用共现分析方法获取候选检索词,包括:
获取网络日志中的记载的统一资源定位符记录;
获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词。
结合第一方面的第一实施方式,获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词,包括:
获取所述统一资源定位符记录中曾经被点击打开的,且有卡片召回的检索词,以确定候选检索词;
提取所述网络日志中的网络检索的历史记录。
本发明在第一方面的第二实施方式中,或与第一方面的第一实施方式相结合,采用共现分析方法获取候选检索词,还包括:
获取网络日志中记载的会话中的所有检索词记录;
获取所述所有检索词记录中的高频共现的检索词作为候选检索词。
结合第一方面,本发明在第一方面的第三实施方式中,计算所述候选检索词与所述待检索词的相关性,包括:
计算所述候选检索词与所述待检索词的共现来源和共现频次;
计算所述检索词和所述待检索词的语意相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711216118.8/2.html,转载请声明来源钻瓜专利网。