[发明专利]一种搜索意图识别方法及装置在审
申请号: | 201510486646.X | 申请日: | 2015-08-07 |
公开(公告)号: | CN105095187A | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 康昭委;李亚楠;曾洪雷 | 申请(专利权)人: | 广州神马移动信息科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 意图 识别 方法 装置 | ||
1.一种搜索意图识别方法,其特征在于,包括:
获得第一预设时间内的第一历史搜索语句集合,对所述第一历史搜索语句集合中的历史搜索语句进行分类,得到各个预设专项类别对应的专项搜索词库;
根据所述专项搜索词库建立分类模型,并通过所述分类模型获取各个预设专项类别对应的候补搜索语句,将所述候补搜索语句记入相应类别的专项搜索词库;
根据所述专项搜索词库确定至少一个预设专项类别,作为目标搜索语句的意图类别。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取第二预设时间内的第二历史搜索语句集合,并根据所述第二历史搜索语句集合训练所述分类模型,以更新所述专项搜索词库。
3.根据权利要求1或2所述的方法,其特征在于,对所述第一历史搜索语句集合中的历史搜索语句进行分类,得到各个预设专项类别对应的专项搜索词库,包括:
获取所述第一预设时间内所述第一历史搜索语句集合中各个历史搜索语句对应的点击网页组合;
针对每个历史搜索语句,确定其点击网页组合中各个点击网页所属的预设专项类别,计算各个预设专项类别对应的点击网页在所述点击网页组合中所占的点击比例,将大于预设阈值的点击比例对应的预设专项类别作为相应历史搜索语句的意图类别,并将各个历史搜索语句分别记入其意图类别对应的专项搜索词库。
4.根据权利要求3所述的方法,其特征在于,确定历史搜索语句的点击网页组合中各个点击网页所属的预设专项类别,包括:
针对点击网页组合中的每个点击网页,获取其URL;
根据所述URL确定相应的点击网页对应的主机名;
查询各个预设专项类别对应的专项站点列表,确定所述主机名所在专项站点列表对应的预设专项类别,并将其作为相应点击网页所属的预设专项类别。
5.根据权利要求3所述的方法,其特征在于,根据所述专项搜索词库建立分类模型,包括:
针对所述专项搜索词库中各个历史搜索语句,分别获取其点击网页对应的URL、网页标题;
将所述专项搜索词库中的各个历史搜索语句及对应的网页标题、URL分别进行分割处理;
将分割历史搜索词语和网页标题得到的各个词元、以及分割URL得到的字符串分别表示为基于特征空间的特征向量;
根据所述特征向量,并以所述点击网页所属预设专项类别对应的点击比例作为相关特征向量的权重,建立基于最大熵模型的分类模型。
6.根据权利要求3所述的方法,其特征在于,在确定所述目标搜索语句的意图类别后,所述方法还包括:
根据所述目标搜索语句的意图类别对所述目标搜索语句进行垂直搜索,得到与所述目标搜索语句相关的目标网页;
根据所述意图类别对应的点击比例确定所述意图类别的搜索意图等级;
根据所述搜索意图等级确定各个意图类别对应的目标网页的展示顺序,并生成阿拉丁形式的搜索结果页面。
7.一种搜索意图识别装置,其特征在于,包括:样本获取单元、模型控制单元和意图识别单元;
所述样本获取单元用于,获得第一预设时间内的第一历史搜索语句集合,对所述第一历史搜索语句集合中的历史搜索语句进行分类,得到各个预设专项类别对应的专项搜索词库;
所述模型控制单元用于,根据所述专项搜索词库建立分类模型,并通过所述分类模型获取各个预设专项类别对应的候补搜索语句,将所述候补搜索语句记入相应类别的专项搜索词库;
所述意图识别单元用于,根据所述专项搜索词库确定至少一个预设专项类别,作为目标搜索语句的意图类别。
8.根据权利要求7所述的装置,其特征在于,还包括:
更新单元,用于获取第二预设时间内的第二历史搜索语句集合,并根据所述第二历史搜索语句集合训练所述分类模型,以更新所述专项搜索词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州神马移动信息科技有限公司,未经广州神马移动信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510486646.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机器翻译的方法及其设备
- 下一篇:网页编辑方法和装置