[发明专利]一种网页地址分类方法及装置有效

专利信息
申请号: 201611199522.4 申请日: 2016-12-22
公开(公告)号: CN106874340B 公开(公告)日: 2020-12-18
发明(设计)人: 张惊申;鲁广平 申请(专利权)人: 新华三技术有限公司
主分类号: G06F16/958 分类号: G06F16/958
代理公司: 北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人: 项京;马敬
地址: 310052 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 地址 分类 方法 装置
【权利要求书】:

1.一种网页地址分类方法,其特征在于,应用于电子设备中,所述方法包括:

获得待分类网页地址;

确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;

基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;

将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。

2.根据权利要求1所述的方法,其特征在于,所述基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分,包括:

对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数;

基于各权威信息组中分布的每个目标网页地址对应的权重值、该目标网页地址对应的校准次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分。

3.根据权利要求2所述的方法,其特征在于,对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数利用的公式为:

ScientificMatchTime=MatchTime(1/M)

其中,ScientificMatchTime为校准次数,MatchTime为任一目标网页地址在所述第一地址组中出现的次数,M为预设的开方次数,M大于或等于2。

4.根据权利要求2所述的方法,其特征在于,计算任一权威信息组与所述待分类网页地址的匹配得分时利用的匹配得分计算公式为:

其中,TypeScore为该权威信息组与所述待分类网页地址的匹配得分,n为该权威信息组中所分布的目标网页地址的个数,ScientificMatchTime(n)为该权威信息组中所分布的第n个目标网页地址对应的校准次数,Weight(n)为该权威信息组中所分布的第n个目标网页地址对应的权重值。

5.根据权利要求1所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:

判断所述待分类网页地址是否存在于网页数据库的任一网页地址分组中,其中,所述网页数据库中存储有类型互不相同的多个网页地址分组;

若为否,执行所述确定第一地址组的步骤。

6.根据权利要求5所述的方法,其特征在于,所述将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型后,所述方法还包括:

将所述待分类网页地址存储至类型为所述待分类网页地址的类型的网页地址分组中。

7.根据权利要求1-6中任一项所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:

确定多个不同的类型,并创建包括有多个权威信息组的权威数据库,其中,所述权威信息组与所述类型一一对应;

针对每个类型,确定对应的网页地址集合,其中,每个网页地址集合中包括第一预设数量个权威网页地址;

确定每个类型对应的根集,其中,每个根集中包括该根集的类型对应的网页地址集合中的第二预设数量个权威网页地址;

确定每个类型对应的扩展集合,其中,每个扩展集合中包括该扩展集合的类型对应的根集中的各权威网页地址对应的网页中的正向链接;

基于每个类型对应的根集、扩展集合,以及超文本敏感标题搜索HITS算法,计算每个类型对应的根集中的各权威网页地址所对应的权重值;

将计算得到的每个权威网页地址对应的权重值与该权威网页地址之间的对应关系存储至该权威网页地址的类型对应的权威信息组中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三技术有限公司,未经新华三技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611199522.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top