[发明专利]统一资源定位符URL间相似度计算的方法及装置有效
申请号: | 201410568402.1 | 申请日: | 2014-10-22 |
公开(公告)号: | CN104281703B | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 谭国斌;沈建荣;马哲 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京尚伦律师事务所 11477 | 代理人: | 代治国 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 统一 资源 定位 url 相似 计算 方法 装置 | ||
本公开是关于统一资源定位符URL间相似度计算的方法及装置,用于提高URL间相似度计算的准确性。所述方法包括:对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。本公开能够利用多个维度计算URL间相似度,提高了URL间相似度的准确性。
技术领域
本公开涉及计算机网络技术领域,尤其涉及统一资源定位符URL间相似度计算的方法及装置。
背景技术
相关技术中,计算统一资源定位符URL间相似度的方法为:将URL当成字符串,按字符串间相似度的计算方法计算URL间相似度。例如,按编辑距离算法或最长公共子串算法计算两个字符串间相似度,以该计算所得相似度作为URL间相似度。其中,编辑距离算法是根据两个字符串之间,由一个转成另一个所需的最少编辑操作次数,计算字符串间相似度;最长公共子串算法是根据两个字符串间最长的相同子串,计算字符串间相似度。相关技术中计算URL间相似度的方法的缺陷在于:所计算的相似度不够准确。例如,URL1为www.miui.com/music/123.html,URL 2为www.miui.com/music/456.html,URL 3为www.miui.com/music/abc.html,按相关技术,该3个URL相互间的相似度相同,但是,事实上,URL1和URL2间的相似度大于,URL 3与URL1间的相似度。
发明内容
为克服相关技术中存在的问题,本公开实施例提供统一资源定位符URL间相似度计算的方法,用于提高URL间相似度计算的准确性。
根据本公开实施例的第一方面,提供一种统一资源定位符URL间相似度计算的方法,其特征在于,包括:
对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;
根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。
在一实施例中,方法还可包括:
判断所述URL间相似度是否大于预设阈值;
当所述URL间相似度大于预设阈值时,判定所述URL相似。
在一实施例中,所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,可包括:
判断URL中对应于所述预设特征参量的特征参量值是否相同;
当URL中所述特征参量值相同时,确定URL间对应于所述预设特征参量的相似度分量为第一预设值;
当URL中所述特征参量值不相同时,确定URL间对应于所述预设特征参量的相似度分量为第二预设值;
所述第一预设值大于所述第二预设值。
在一实施例中,当所述预设特征参量的类型为字符串时,所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,可包括:
利用编辑距离算法或最长公共子串算法,根据URL中对应于所述预设特征参量的字符串,计算URL间对应于所述预设特征参量的相似度分量;或者
根据URL中对应于所述预设特征参量的字符串中字符的类型,计算URL间对应于所述预设特征参量的相似度分量。
在一实施例中,所述预设特征参量包括:站点名称参量、目录深度参量、一级目录参量、二级目录参量和/或尾部页面参量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410568402.1/2.html,转载请声明来源钻瓜专利网。