[发明专利]网页搜索关键词的相关性检测方法及装置有效
申请号: | 201410713686.9 | 申请日: | 2014-11-28 |
公开(公告)号: | CN104391958B | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 何鑫 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 李志刚;吴贵明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页搜索 统一资源定位符 检测 数量获取 统计 网页 | ||
1.一种网页搜索关键词的相关性检测方法,其特征在于,包括:
获取多个网页搜索关键词,其中,所述多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,所述第一网页搜索关键词和所述第二网页搜索关键词为不同的网页搜索关键词;
分别获取所述多个网页搜索关键词对应的网页的统一资源定位符,其中,所述第一网页搜索关键词对应的网页的统一资源定位符为第一统一资源定位符集合,所述第一统一资源定位符集合包括第一统一资源定位符,所述第二网页搜索关键词对应的网页的统一资源定位符为第二统一资源定位符集合,所述第二统一资源定位符集合包括第二统一资源定位符;
统计第一数量,其中,所述第一数量为所述第一网页搜索关键词对应的网页的统一资源定位符为所述第一统一资源定位符的个数,也即所述第一数量为所述第一网页搜索关键词分别和多个统一资源定位符之间存在对应关系的数量;
统计第二数量,其中,所述第二数量为所述第二网页搜索关键词对应的网页的统一资源定位符为所述第二统一资源定位符的个数,也即所述第二数量为所述第二网页搜索关键词分别和多个统一资源定位符之间存在对应关系的数量;以及
根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测。
2.根据权利要求1所述的方法,其特征在于,
所述第一统一资源定位符集合还包括第三统一资源定位符,所述第二统一资源定位符集合还包括第四统一资源定位符,根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测之前,所述方法还包括:
统计第三数量,其中,所述第三数量为所述第一网页搜索关键词对应的网页的统一资源定位符为所述第三统一资源定位符的个数;以及
统计第四数量,其中,所述第四数量为所述第二网页搜索关键词对应的网页的统一资源定位符为所述第四统一资源定位符的个数,
根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测包括:
根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第一相关性数值;
根据所述第一统一资源定位符、所述第四统一资源定位符、所述第一数量和所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第二相关性数值;
根据所述第三统一资源定位符、所述第二统一资源定位符、所述第三数量和所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第三相关性数值;
根据所述第三统一资源定位符、所述第四统一资源定位符、所述第三数量和所述第四数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第四相关性数值;以及
确定所述第一相关性数值、所述第二相关性数值、所述第三相关性数值和所述第四相关性数值之和为所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性对应的数值,
其中,根据所述第一统一资源定位符、所述第二统一资源定位符、所述第一数量和所述第二数量获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的第一相关性数值包括:判断所述第一统一资源定位符和所述第二统一资源定位符是否相同;如果所述第一统一资源定位符和所述第二统一资源定位符不相同,则确定所述第一相关性数值为0;如果所述第一统一资源定位符和所述第二统一资源定位符相同,则将所述第一数量和所述第二数量进行比较,根据比较结果获取目标数量,其中,所述目标数量为所述第一数量和所述第二数量中较小的数量值;以及确定所述目标数量为所述第一相关性数值。
3.根据权利要求1所述的方法,其特征在于,在对所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性进行检测之后,所述方法还包括:
根据所述第一网页搜索关键词和所述第二网页搜索关键词之间的相关性,获取所述第一网页搜索关键词和所述第二网页搜索关键词之间的从属概率,其中,所述从属概率为所述第一网页搜索关键词和所述第二网页搜索关键词属于一个关键词类的概率;以及
根据所述从属概率将所述多个网页搜索关键词划分为关键词类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410713686.9/1.html,转载请声明来源钻瓜专利网。