[发明专利]网页类型的判断方法及装置有效
申请号: | 201710227194.2 | 申请日: | 2017-04-07 |
公开(公告)号: | CN108694192B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 谢兴波 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/906;G06F16/80 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 类型 判断 方法 装置 | ||
1.一种网页类型的判断方法,其特征在于,包括:
获取目标网页的html源码;
通过所述html源码构建节点树,其中,所述节点树由html源码中多种类型的节点构建;
从所述节点树中抽取网页特征,得到网页特征集合;以及
利用所述网页特征集合中各个网页特征对所述目标网页的网页类型进行判断,
在获取目标网页的html源码之前,所述方法还包括:爬取多个网页并获取对所述多个网页所属网页类型进行标记的标记结果;对每个网页进行处理,获取每个网页的网页特征;根据每个网页所属网页类型的标记结果计算每个网页特征的分值;对每个网页特征的分值和每个网页所属网页类型进行训练,得到分类模型,
利用所述网页特征集合中各个网页特征对所述目标网页的网页类型进行判断包括:获取所述网页特征集合中每个网页特征的分值;通过所述分类模型确定每个网页特征的权重值;根据所述每个网页特征的权重值和每个网页特征的分值计算所述目标网页的类型综合值;以及根据所述类型综合值判定所述目标网页的网页类型。
2.根据权利要求1所述的方法,其特征在于,通过所述html源码构建节点树包括:
从所述html源码中抽取目标类型节点;
确定所述目标类型节点的层级结构;
基于所述目标类型节点和所述层级结构生成待处理节点树;
移除所述待处理节点树中不满足预设条件的目标类型节点;以及
在移除所述待处理节点树中不满足预设条件的目标类型节点之后,对所述待处理节点树中的目标类型节点进行封装处理,构建所述节点树。
3.根据权利要求1所述的方法,其特征在于,从所述节点树中抽取网页特征,得到网页特征集合包括:
对所述节点树中的节点进行聚类处理,得到节点聚集集合;
在各节点聚集集合中抽取影响判断网页类型的网页特征;
通过抽取到的网页特征组成网页特征集合。
4.一种网页类型的判断装置,其特征在于,包括:
第一获取单元,用于获取目标网页的html源码;
构建单元,用于通过所述html源码构建节点树,其中,所述节点树由html源码中多种类型的节点构建;
抽取单元,用于从所述节点树中抽取网页特征,得到网页特征集合;以及
判断单元,用于利用所述网页特征集合中各个网页特征对所述目标网页的网页类型进行判断,
所述网页类型的判断装置还包括:爬取单元,用于在获取目标网页的html源码之前,爬取多个网页并获取对所述多个网页所属网页类型进行标记的标记结果;第二获取单元,用于对每个网页进行处理,获取每个网页的网页特征;计算单元,用于根据每个网页所属网页类型的标记结果计算每个网页特征的分值;训练单元,用于对每个网页特征的分值和每个网页所属网页类型进行训练,得到分类模型,
所述判断单元包括:获取模块,用于获取所述网页特征集合中每个网页特征的分值;第二确定模块,用于通过所述分类模型确定每个网页特征的权重值;计算模块,用于根据所述每个网页特征的权重值和每个网页特征的分值计算所述目标网页的类型综合值;以及判定模块,用于根据所述类型综合值判定所述目标网页的网页类型。
5.根据权利要求4所述的装置,其特征在于,所述构建单元包括:
第一抽取模块,用于从所述html源码中抽取目标类型节点;
第一确定模块,用于确定所述目标类型节点的层级结构;
生成模块,用于基于所述目标类型节点和所述层级结构生成待处理节点树;
移除模块,用于移除所述待处理节点树中不满足预设条件的目标类型节点;以及
第一处理模块,用于在移除所述待处理节点树中不满足预设条件的目标类型节点之后,对所述待处理节点树中的目标类型节点进行封装处理,构建所述节点树。
6.根据权利要求4所述的装置,其特征在于,所述抽取单元包括:
第二处理模块,用于对所述节点树中的节点进行聚类处理,得到节点聚集集合;
第二抽取模块,用于在各节点聚集集合中抽取影响判断网页类型的网页特征;
组成模块,用于通过抽取到的网页特征组成网页特征集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710227194.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:在BIM模型中快速检索构件信息的方法
- 下一篇:网页类型的判断方法及装置