[发明专利]一种基于网页语义结构的网页分块方法有效
申请号: | 201811299864.2 | 申请日: | 2018-11-02 |
公开(公告)号: | CN109492177B | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 肖碧松;赵芳芳 | 申请(专利权)人: | 中国搜索信息科技股份有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/951 |
代理公司: | 11337 北京市盛峰律师事务所 | 代理人: | 于国富 |
地址: | 100000 北京市大兴*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 网页分块 网页语义 物理块 预处理 内容抽取 输出结构 网页编辑 网页识别 网页页面 重新排版 精准度 语法树 重要度 分块 权重 整合 过滤 输出 监测 广告 | ||
1.一种基于网页语义结构的网页分块方法,其特征在于,包括以下步骤:
S1, 将获取到的网页html源码进行预处理,建立DOM语法树;
S2,对DOM语法树进行物理块识别和整合;
S3,在物理块类型基础上进行网页识别及监测;
S4,输出分块后的网页;
步骤S2包括:
S21,计算所述DOM语法树中每个节点的原子标签数量,识别物理块类型;
S22,对识别出来的物理块中不符合标准的块进行整合;
步骤S21中物理块类型包括原子块和原子集,其中原子块包括小图片块、大图片块、短文本块、长文本块、短外链接文本块、长外链接文本块、短链接文本块、长链接文本块、外链接图片块和链接图片块,原子集包括横向短链接原子集、纵向短链接原子集、横向长链接原子集、纵向长链接原子集、短文本原子集、长文本原子集、横向图片原子集、纵向图片原子集、正文原子集以及图片文字原子集;
在进行判断原子块的数量时,首先判断是否是一个原子块,如果是,则直接构建原子块,进行物理块识别;若不是,则需要建立原子集,再进行物理块识别。
2.根据权利要求1所述的基于网页语义结构的网页分块方法,其特征在于,步骤S1中所述预处理包括空白字符压缩、网页标签统一转换为小写、将非标签的“<”符号转换为实体、处理需要过滤处理的标签内容和网页字符集识别与转换。
3.根据权利要求1所述的基于网页语义结构的网页分块方法,其特征在于,S22中所述不符合标准的块指块文字内容少、空html标签、a标签中href地址链接到其它网站以及广告链接的物理块。
4.根据权利要求1所述的基于网页语义结构的网页分块方法,其特征在于,步骤S3包括:
S31,在物理块类型的基础上再进行粗粒度网页页面类型识别;
S32,根据识别出来的物理块类型和粗粒度网页类型再进行更精细的网页逻辑块类型识别;
S33,根据网页逻辑块类型检查逻辑块类型相关数据是否与之前识别的粗粒度页面类型相吻合,如不吻合,则在网页逻辑块类型的基础上再进行粗粒度页面类型识别,跳转到S31;
S34,在网页逻辑块类型识别的基础上进行精细网页类型识别。
5.根据权利要求4所述的基于网页语义结构的网页分块方法,其特征在于,步骤S32之后还包括网页逻辑块融合,对一些识别质量较差的逻辑块进行融合,融合的原则根据粗粒度页面类型而定。
6.根据权利要求5所述的基于网页语义结构的网页分块方法,其特征在于,步骤S31中所述粗粒度网页类型包括导航类型网页,正文类型网页和图片类型网页。
7.根据权利要求5所述的基于网页语义结构的网页分块方法,其特征在于,步骤S32中所述网页逻辑块类型包括网页公用逻辑块,正文类型网页逻辑块,导航类型网页逻辑块和图片类型网页逻辑块。
8.根据权利要求5所述的基于网页语义结构的网页分块方法,其特征在于,步骤S34中所述精细网页类型包括门户网站首页、站内导航页、外链接导航列表页、新闻正文页、视频内容页、小说简介页、小说章节页、小说正文页、论坛帖子列表页、论坛帖子评论页、博客内容页、微博页、小图片列表页、大图片页和幻灯片页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国搜索信息科技股份有限公司,未经中国搜索信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811299864.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页面信息更新方法及装置
- 下一篇:一种切换视图的方法及装置