[发明专利]统一资源定位符URL间相似度计算的方法及装置有效
申请号: | 201410568402.1 | 申请日: | 2014-10-22 |
公开(公告)号: | CN104281703B | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 谭国斌;沈建荣;马哲 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京尚伦律师事务所 11477 | 代理人: | 代治国 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 统一 资源 定位 url 相似 计算 方法 装置 | ||
1.一种统一资源定位符URL间相似度计算的方法,其特征在于,包括:
对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,其中,所述预设特征参量包括:站点名称参量、目录深度参量、一级目录参量、二级目录参量和尾部页面参量;
根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度;
所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,包括:
判断URL中对应于所述预设特征参量的特征参量值是否相同;
当URL中所述特征参量值相同时,确定URL间对应于所述预设特征参量的相似度分量为第一预设值;
当URL中所述特征参量值不相同时,确定URL间对应于所述预设特征参量的相似度分量为第二预设值;
所述第一预设值大于所述第二预设值;
所述方法还包括:
判断所述URL间相似度是否大于预设阈值;
当所述URL间相似度大于预设阈值时,判定所述URL相似。
2.如权利要求1所述的方法,其特征在于,
当所述预设特征参量的类型为字符串时,所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,包括:
利用编辑距离算法或最长公共子串算法,根据URL中对应于所述预设特征参量的字符串,计算URL间对应于所述预设特征参量的相似度分量;或者根据URL中对应于所述预设特征参量的字符串中字符的类型,计算URL间对应于所述预设特征参量的相似度分量。
3.一种统一资源定位符URL间相似度计算的装置,其特征在于,包括:
计算模块,用于对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,其中,所述预设特征参量包括:站点名称参量、目录深度参量、一级目录参量、二级目录参量和尾部页面参量;
加权求和模块,用于根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度;
所述计算模块,包括:
判断子模块,用于判断URL中对应于所述预设特征参量的特征参量值是否相同;
第一确定子模块,用于当URL中所述特征参量值相同时,确定URL间对应于所述预设特征参量的相似度分量为第一预设值;
第二确定子模块,用于当URL中所述特征参量值不相同时,确定URL间对应于所述预设特征参量的相似度分量为第二预设值;
所述第一预设值大于所述第二预设值;
所述装置还包括:
判断模块,用于判断所述URL间相似度是否大于预设阈值;
判定模块,用于当所述URL间相似度大于预设阈值时,判定所述URL相似。
4.如权利要求3所述的装置,其特征在于,
所述计算模块,包括
第一计算子模块,用于当所述预设特征参量的类型为字符串时,利用编辑距离算法或最长公共子串算法,根据URL中对应于所述预设特征参量的字符串,计算URL间对应于所述预设特征参量的相似度分量;或者
第二计算子模块,用于当所述预设特征参量的类型为字符串时,根据URL中对应于所述预设特征参量的字符串中字符的类型,计算URL间对应于所述预设特征参量的相似度分量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410568402.1/1.html,转载请声明来源钻瓜专利网。