[发明专利]访问意图挖掘方法及装置有效
申请号: | 201810719792.6 | 申请日: | 2018-07-03 |
公开(公告)号: | CN110737823B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 沈璠;王晓元;马宇峰;叶峻 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 访问 意图 挖掘 方法 装置 | ||
1.一种访问意图挖掘方法,其特征在于,包括:
获取用户在网站上的至少一个访问行为;所述访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;
根据所述页面地址和/或所述检索词,查询预设的意图库,获取所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图;所述意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图;
还包括:
获取预设历史时间段内所述用户在所述网站上的检索行为;所述检索行为包括:检索词与目标页面地址的对应关系;所述目标页面地址,为所述用户在页面上输入所述检索词后所打开的页面的地址;
针对所述检索行为,获取所述检索行为中的所有检索词,从所有检索词中提取意图词;
针对每个目标页面地址,获取与所述目标页面地址对应的至少一个检索词,从所述至少一个检索词中提取关键词;
在存在与所述关键词匹配的意图词时,将所述关键词确定为所述目标页面地址对应的访问意图,以及将所述关键词确定为所述至少一个检索词对应的访问意图,生成所述意图库;
其中,所述生成所述意图库之后,还包括:
获取历史意图库;
针对所述历史意图库中的任意一个检索词与访问意图的历史对应关系,判断所述意图库中是否存在与所述历史对应关系检索词相同,和/或,访问意图相同的对应关系;
若存在与所述历史对应关系检索词相同,且访问意图不同的第一对应关系,则判断所述历史对应关系中的访问意图与所述第一对应关系中的访问意图是否存在包含与被包含关系;
若存在包含与被包含关系,则选择其中一个访问意图作为所述第一对应关系中更新后的访问意图;
若所述意图库中不存在所述第一对应关系,且不存在与所述历史对应关系检索词相同,且访问意图相同的第二对应关系,则将所述历史对应关系添加到所述意图库中。
2.根据权利要求1所述的方法,其特征在于,所述从所有检索词中提取意图词,包括:
针对所有检索词中的每个检索词,获取所述检索词的相关信息;所述相关信息包括以下信息中的任意一个或者多个:词频、词性、词长度;
根据所述检索词的相关信息,确定所述检索词是否为意图词。
3.根据权利要求1所述的方法,其特征在于,所述生成所述意图库之后,还包括:
针对每个检索词与访问意图的对应关系,获取采用所述检索词去搜索与所述访问意图对应的页面地址的用户数量;
对对应的用户数量小于预设数量阈值的对应关系进行删除处理;
针对每个访问意图,获取所述访问意图对应的至少一个检索词;
获取所述至少一个检索词与意图词之间的最大相似度;
在所述至少一个检索词与意图词之间的最大相似度不满足预设相似度条件时,删除所述访问意图与所述至少一个检索词的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图,包括:
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,统计各个访问意图的数量;
将对应的数量满足预设意图数量阈值的访问意图,确定为所述用户对所述网站的访问意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810719792.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用户兴趣挖掘方法、装置、设备和存储介质
- 下一篇:内容查询方法和装置