[发明专利]一种基于网页语义结构的网页分块方法有效
申请号: | 201811299864.2 | 申请日: | 2018-11-02 |
公开(公告)号: | CN109492177B | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 肖碧松;赵芳芳 | 申请(专利权)人: | 中国搜索信息科技股份有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/951 |
代理公司: | 11337 北京市盛峰律师事务所 | 代理人: | 于国富 |
地址: | 100000 北京市大兴*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于网页语义结构的网页分块方法,涉及网页编辑领域;所述网页分块方法包括以下步骤:S1,将获取到的网页html源码进行预处理,建立DOM语法树;S2,对DOM树进行物理块识别和整合;S3,在物理块类型基础上进行网页识别及监测;S4,输出分块后的网页。本发明提供的网页分块方法能更准确识别网页页面类型以及网页块的重要度,方便过滤一些广告块和权重较低的块;方便对原网页进行重新排版,并输出结构化数据;根据不同类型网页切分网页块,提升了内容抽取的精准度。 | ||
搜索关键词: | 网页 网页分块 网页语义 物理块 预处理 内容抽取 输出结构 网页编辑 网页识别 网页页面 重新排版 精准度 语法树 重要度 分块 权重 整合 过滤 输出 监测 广告 | ||
【主权项】:
1.一种基于网页语义结构的网页分块方法,其特征在于,包括以下步骤:/nS1, 将获取到的网页html源码进行预处理,建立DOM语法树;/nS2,对DOM语法树进行物理块识别和整合;/nS3,在物理块类型基础上进行网页识别及监测;/nS4,输出分块后的网页;/n步骤S2包括:/nS21,计算所述DOM语法树中每个节点的原子标签数量,识别物理块类型;/nS22,对识别出来的物理块中不符合标准的块进行整合;/n步骤S21中物理块类型包括原子块和原子集,其中原子块包括小图片块、大图片块、短文本块、长文本块、短外链接文本块、长外链接文本块、短链接文本块、长链接文本块、外链接图片块和链接图片块,原子集包括横向短链接原子集、纵向短链接原子集、横向长链接原子集、纵向长链接原子集、短文本原子集、长文本原子集、横向图片原子集、纵向图片原子集、正文原子集以及图片文字原子集;/n在进行判断原子块的数量时,首先判断是否是一个原子块,如果是,则直接构建原子块,进行物理块识别;若不是,则需要建立原子集,再进行物理块识别。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国搜索信息科技股份有限公司,未经中国搜索信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811299864.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种页面信息更新方法及装置
- 下一篇:一种切换视图的方法及装置