[发明专利]网页搜索关键词的相关性检测方法及装置有效
申请号: | 201410713686.9 | 申请日: | 2014-11-28 |
公开(公告)号: | CN104391958B | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 何鑫 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 李志刚;吴贵明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页搜索 统一资源定位符 检测 数量获取 统计 网页 | ||
本发明公开了一种网页搜索关键词的相关性检测方法及装置。该网页搜索关键词的相关性检测方法包括:获取多个网页搜索关键词;分别获取多个网页搜索关键词对应的网页的统一资源定位符;统计第一数量;统计第二数量;根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测,解决了网页搜索关键词之间的相关性检测不准确的问题,进而通过第一统一资源定位符、第二统一资源定位符、第一数量和第二数量获取第一网页搜索关键词和第二网页搜索关键词之间的相关性,达到了提高网页搜索关键词之间的相关性检测的准确性的效果。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种网页搜索关键词的相关性检测方法和装置。
背景技术
用户通常会抱有一定的目的和意图浏览网站。对于一个网站而言,了解用户访问的真实意图非常重要。通常,网站会根据用户浏览网站的行为轨迹构造模型,以训练分类器的方法对访问网站的用户进行分类,或是通过分析网站站内搜索词的热度来了解用户的需求。
由于进行站内搜索是用户主动寻找信息的行为,因此,在一定程度上可以描述用户的需求。用户需求可以通过对用户在网站中的站内搜索词进行聚类的方式来加以识别。传统的站内搜索词聚类方法依赖于搜索词本身,通过词语间字面上的重叠进行计算,实现方法如下:首先,对搜索关键词进行字面上的拆解(包括逐子或分词),拆解以后的搜索关键词可以表示为以词(字)为单元的序列串;然后,逐一计算每一对搜索关键词的相似度,即比较两个搜索词的词串的吻合程度,并获取二者的相似度;最后,使用聚类算法进行关键词聚类。
用户需求与站内搜索词之间应存在多对多的关系,即一种用户需求可以通过多个站内搜索词来表示,一个站内搜索词也可以表示多种不同的用户需求。现有的搜索词聚类方法仅仅通过搜索关键词字面上的吻合程度建立联系并不符合实际情况;同时,生硬地构造了一种搜索关键词间的相关关系,聚类结果可信度差,比如,“三星”和“苹果”不包含任何字面上的匹配,但是相关性应该很高,而“本田”和“本源”是完全无关的两个词,但是字面上仍然存在着相关关系;另外,现有方法需要计算每两个搜索关键词之间的相似度,因此时间复杂度为o(n2),不适用于大规模数据挖掘。
针对相关技术中网页搜索关键词之间的相关性检测不准确的问题,目前尚未提出有效的解决方案。
发明内容
针对现有的网页搜索关键词之间的相关性检测不准确的问题而提出本发明,为此,本发明的主要目的在于提供一种网页搜索关键词的相关性检测方法及装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页搜索关键词的相关性检测方法。该方法包括:获取多个网页搜索关键词,其中,多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;分别获取多个网页搜索关键词对应的网页的统一资源定位符,其中,第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合,第一统一资源定位符集合包括第一统一资源定位符,第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合,第二统一资源定位符集合包括第二统一资源定位符;统计第一数量,其中,第一数量为第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符的个数;统计第二数量,其中,第二数量为第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符的个数;根据第一统一资源定位符、第二统一资源定位符、第一数量和第二数量对第一网页搜索关键词和第二网页搜索关键词之间的相关性进行检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410713686.9/2.html,转载请声明来源钻瓜专利网。