[发明专利]一种基于网页语义结构的网页分块方法有效

申请号：	201811299864.2	申请日：	2018-11-02
公开（公告）号：	CN109492177B	公开（公告）日：	2019-12-17
发明（设计）人：	肖碧松;赵芳芳	申请（专利权）人：	中国搜索信息科技股份有限公司
主分类号：	G06F16/957	分类号：	G06F16/957;G06F16/951
代理公司：	11337 北京市盛峰律师事务所	代理人：	于国富
地址：	100000 北京市大兴***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于网页语义结构的网页分块方法，涉及网页编辑领域；所述网页分块方法包括以下步骤：S1,将获取到的网页html源码进行预处理，建立DOM语法树；S2，对DOM树进行物理块识别和整合；S3，在物理块类型基础上进行网页识别及监测；S4，输出分块后的网页。本发明提供的网页分块方法能更准确识别网页页面类型以及网页块的重要度，方便过滤一些广告块和权重较低的块；方便对原网页进行重新排版，并输出结构化数据；根据不同类型网页切分网页块，提升了内容抽取的精准度。
搜索关键词：	网页网页分块网页语义物理块预处理内容抽取输出结构网页编辑网页识别网页页面重新排版精准度语法树重要度分块权重整合过滤输出监测广告
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于网页语义结构的网页分块方法，其特征在于，包括以下步骤：/nS1, 将获取到的网页html源码进行预处理，建立DOM语法树；/nS2，对DOM语法树进行物理块识别和整合；/nS3，在物理块类型基础上进行网页识别及监测；/nS4，输出分块后的网页；/n步骤S2包括：/nS21，计算所述DOM语法树中每个节点的原子标签数量，识别物理块类型；/nS22，对识别出来的物理块中不符合标准的块进行整合；/n步骤S21中物理块类型包括原子块和原子集，其中原子块包括小图片块、大图片块、短文本块、长文本块、短外链接文本块、长外链接文本块、短链接文本块、长链接文本块、外链接图片块和链接图片块，原子集包括横向短链接原子集、纵向短链接原子集、横向长链接原子集、纵向长链接原子集、短文本原子集、长文本原子集、横向图片原子集、纵向图片原子集、正文原子集以及图片文字原子集；/n在进行判断原子块的数量时，首先判断是否是一个原子块，如果是，则直接构建原子块，进行物理块识别；若不是，则需要建立原子集，再进行物理块识别。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国搜索信息科技股份有限公司，未经中国搜索信息科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811299864.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于网页语义结构的网页分块方法有效

专利文献下载