[发明专利]一种网页地址分类方法及装置有效
申请号: | 201611199522.4 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106874340B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 张惊申;鲁广平 | 申请(专利权)人: | 新华三技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;马敬 |
地址: | 310052 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 地址 分类 方法 装置 | ||
1.一种网页地址分类方法,其特征在于,应用于电子设备中,所述方法包括:
获得待分类网页地址;
确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;
基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;
将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。
2.根据权利要求1所述的方法,其特征在于,所述基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分,包括:
对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数;
基于各权威信息组中分布的每个目标网页地址对应的权重值、该目标网页地址对应的校准次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分。
3.根据权利要求2所述的方法,其特征在于,对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数利用的公式为:
ScientificMatchTime=MatchTime(1/M)
其中,ScientificMatchTime为校准次数,MatchTime为任一目标网页地址在所述第一地址组中出现的次数,M为预设的开方次数,M大于或等于2。
4.根据权利要求2所述的方法,其特征在于,计算任一权威信息组与所述待分类网页地址的匹配得分时利用的匹配得分计算公式为:
其中,TypeScore为该权威信息组与所述待分类网页地址的匹配得分,n为该权威信息组中所分布的目标网页地址的个数,ScientificMatchTime(n)为该权威信息组中所分布的第n个目标网页地址对应的校准次数,Weight(n)为该权威信息组中所分布的第n个目标网页地址对应的权重值。
5.根据权利要求1所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:
判断所述待分类网页地址是否存在于网页数据库的任一网页地址分组中,其中,所述网页数据库中存储有类型互不相同的多个网页地址分组;
若为否,执行所述确定第一地址组的步骤。
6.根据权利要求5所述的方法,其特征在于,所述将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型后,所述方法还包括:
将所述待分类网页地址存储至类型为所述待分类网页地址的类型的网页地址分组中。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:
确定多个不同的类型,并创建包括有多个权威信息组的权威数据库,其中,所述权威信息组与所述类型一一对应;
针对每个类型,确定对应的网页地址集合,其中,每个网页地址集合中包括第一预设数量个权威网页地址;
确定每个类型对应的根集,其中,每个根集中包括该根集的类型对应的网页地址集合中的第二预设数量个权威网页地址;
确定每个类型对应的扩展集合,其中,每个扩展集合中包括该扩展集合的类型对应的根集中的各权威网页地址对应的网页中的正向链接;
基于每个类型对应的根集、扩展集合,以及超文本敏感标题搜索HITS算法,计算每个类型对应的根集中的各权威网页地址所对应的权重值;
将计算得到的每个权威网页地址对应的权重值与该权威网页地址之间的对应关系存储至该权威网页地址的类型对应的权威信息组中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三技术有限公司,未经新华三技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611199522.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种绞吸船开挖珊瑚浅区的施工方法
- 下一篇:一种链轨挖机