[发明专利]用于抽取网页图文块的方法和装置有效

申请号：	201710941523.X	申请日：	2017-10-11
公开（公告）号：	CN107590288B	公开（公告）日：	2020-09-18
发明（设计）人：	徐国强;尹存祥;沈剑平;钟辉强;骆彬	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/906
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了用于抽取网页图文块的方法和装置。该方法的一具体实施方式包括：从待处理网页的文档对象模型中提取出图片节点；基于预设的过滤规则对图片节点进行过滤，得到候选图片节点；对每一个候选图片节点，在预设的最大遍历深度范围内依次向候选图片节点的祖先节点遍历，直到遍历至带有文本的祖先节点，作为候选图片节点对应的候选图文块，并生成候选图文块的路径信息；基于各候选图文块的路径信息的哈希值对各候选图文块进行聚簇；对每个图文块簇，基于各候选图文块的路径信息确定图文块簇内的各候选图文块的共同祖先节点，基于共同祖先节点确定图文块簇的路径信息。该实施方式提升了网页图文块的抽取效率。
搜索关键词：	用于抽取网页图文方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种用于抽取网页图文块的方法，其特征在于，所述方法包括：从待处理网页的文档对象模型中提取出图片节点；基于预设的过滤规则对所述图片节点进行过滤，得到候选图片节点；对每一个候选图片节点，在预设的最大遍历深度范围内依次向所述候选图片节点的祖先节点遍历，直到遍历至带有文本的祖先节点，作为所述候选图片节点对应的候选图文块，并依据所述候选图文块在所述文档对象模型中的位置生成所述候选图文块的路径信息；基于各所述候选图文块的路径信息的哈希值对各所述候选图文块进行聚簇，得到至少一个图文块簇；对每个图文块簇，基于各候选图文块的路径信息确定所述图文块簇内的各候选图文块的共同祖先节点，基于所述共同祖先节点确定所述图文块簇的路径信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度在线网络技术（北京）有限公司，未经百度在线网络技术（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710941523.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于抽取网页图文块的方法和装置有效

专利文献下载