[发明专利]一种搜索意图识别方法及装置在审
申请号: | 201510486646.X | 申请日: | 2015-08-07 |
公开(公告)号: | CN105095187A | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 康昭委;李亚楠;曾洪雷 | 申请(专利权)人: | 广州神马移动信息科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 意图 识别 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,特别是涉及一种搜索意图识别方法及装置。
背景技术
为提供更精确的搜索结果,现有各大通用搜索引擎均具备垂直搜索功能;与传统的通用搜索方式不同,垂直搜索只针对某个专项类别搜索与用户输入的搜索语句(词汇、短语等)相关的网页,如音乐搜索、视频搜索、小说搜索等。为使搜索引擎可以自动对目标搜索语句进行垂直搜索,搜索引擎需要同时具备搜索意图识别功能,即根据目标搜索语句识别出用户想要搜索的专项类别;例如,目标搜索语句为“天龙八部”,则可以通过搜索意图识别得出对应的专项类别为视频或小说,进而搜索引擎分别执行视频搜索和小说搜索。
现有意图识别方法,通常采用以白名单为基础,同时结合模糊匹配和模式匹配的方式。以小说这一专项类别的搜索为例,预先设置一个能覆盖小说类别的尽可能多的搜索语句(词汇、短语等)的白名单,在此基础上还可以设置模糊查询阈值,以及与该专项类别相关的模式匹配关键词(如“免费阅读”、“免费下载”、“txt下载”、“在线阅读”等);在搜索时,通过以下至少一种方式确定用户的搜索意图,查询各个专项类别对应的白名单中是否存在目标搜索语句,或者判断目标搜索语句是否与白名单中某个搜索语句的相似度大于模糊查询阈值,或者判断目标搜索语句中是否包含某个专项类别对应的模式匹配关键词。
实际应用中,用户输入的搜索语句千变万化,而上述意图识别方法使用的白名单、模糊查询阈值、模式匹配关键词都是人工设置的,其所覆盖的搜索语句有限,泛化性较差,很难准确识别每个目标搜索语句对应的专项类别。
发明内容
本申请实施例提供了一种搜索意图识别方法及装置,以解决现有技术中的搜索意图识别方式泛化性差、识别准确度低的问题。
本申请第一方面提供了一种搜索意图识别方法,所述方法包括:
获得第一预设时间内的第一历史搜索语句集合,对所述第一历史搜索语句集合中的历史搜索语句进行分类,得到各个预设专项类别对应的专项搜索词库;
根据所述专项搜索词库建立分类模型,并通过所述分类模型获取各个预设专项类别对应的候补搜索语句,将所述候补搜索语句记入相应类别的专项搜索词库;
根据所述专项搜索词库确定至少一个预设专项类别,作为目标搜索语句的意图类别。
结合第一方面,在第一方面第一种可行的实施方式中,所述方法还包括:
获取第二预设时间内的第二历史搜索语句集合,并根据所述第二历史搜索语句集合训练所述分类模型,以更新所述专项搜索词库。
结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第二种可行的实施方式中,对所述第一历史搜索语句集合中的历史搜索语句进行分类,得到各个预设专项类别对应的专项搜索词库,包括:
获取所述第一预设时间内所述第一历史搜索语句集合中各个历史搜索语句对应的点击网页组合;
针对每个历史搜索语句,确定其点击网页组合中各个点击网页所属的预设专项类别,计算各个预设专项类别对应的点击网页在所述点击网页组合中所占的点击比例,将大于预设阈值的点击比例对应的预设专项类别作为相应历史搜索语句的意图类别,并将各个历史搜索语句分别记入其意图类别对应的专项搜索词库。
结合第一方面第二种可行的实施方式,在第一方面第三种可行的实施方式中,确定历史搜索语句的点击网页组合中各个点击网页所属的预设专项类别,包括:
针对点击网页组合中的每个点击网页,获取其URL;
根据所述URL确定相应的点击网页对应的主机名;
查询各个预设专项类别对应的专项站点列表,确定所述主机名所在专项站点列表对应的预设专项类别,并将其作为相应点击网页所属的预设专项类别。
结合第一方面第二种可行的实施方式,在第一方面第四种可行的实施方式中,根据所述专项搜索词库建立分类模型,包括:
针对所述专项搜索词库中各个历史搜索语句,分别获取其点击网页对应的URL、网页标题;
将所述专项搜索词库中的各个历史搜索语句及对应的网页标题、URL分别进行分割处理;
将分割历史搜索词语和网页标题得到的各个词元、以及分割URL得到的字符串分别表示为基于特征空间的特征向量;
根据所述特征向量,并以所述点击网页所属预设专项类别对应的点击比例作为相关特征向量的权重,建立基于最大熵模型的分类模型。
结合第一方面第二种可行的实施方式,在第一方面第五种可行的实施方式中,在确定所述目标搜索语句的意图类别后,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州神马移动信息科技有限公司,未经广州神马移动信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510486646.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机器翻译的方法及其设备
- 下一篇:网页编辑方法和装置