[发明专利]一种提取网页内容的实现方法有效

专利信息
申请号: 201210078159.6 申请日: 2012-03-22
公开(公告)号: CN102663023A 公开(公告)日: 2012-09-12
发明(设计)人: 刘金玉;田宁;刘崟;谭磊 申请(专利权)人: 浙江盘石信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;王利强
地址: 310011 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 提取 网页 内容 实现 方法
【权利要求书】:

1.一种提取网页内容的实现方法,其特征在于:所述实现方法包括以下步骤:

步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;

步骤S120,对网页类型进行判断,根据统计的根节点的链接总长度α、文本总长度β、链接总个数γ,定义链接密度为设定R是链接密度的阈值,T是链接总个数的阈值,如果当前的布局块的链接密度和链接总个数均大于阈值,则判定为导航页;

步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;

步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。

2.如权利要求1所述的一种提取网页内容的实现方法,其特征在于:所述步骤S110中,网页进行分割处理的流程为:

步骤S210,将输入的网页进行预处理:首先将网页解析为文档对象模型树,对模型树进行处理,将注释节点和空格文本节点删除;

步骤S220,构建新的DOM树,对DOM树中节点定义所需要的语义属性:链接个数、链接长度、文本长度和无关词长度,并将标签为table的节点改为div;

步骤S230,统计文档模型树中每个节点的语义信息,所述语义信息包括链接总个数、链接长度、文本长度和无关词长度,以及每个节点的视觉属性,所述视觉属性包括背景颜色和字体的大小、粗细、颜色,为后面的分块和信息提取作准备;

步骤S240,首先构建只包含div节点的DIV树,根据设定的阈值及判定规则,利用节点统计的语义属性进行分块,判断的顺序是由下而上。

3.如权利要求1或2所述的一种提取网页内容的实现方法,其特征在于:所述步骤S210的网页预处理过程为:

步骤S310,将网页解析成文档对象模型DOM树:依次读入网页的内容,识别每个HTML标签的名称、类别、参数和内容,以树状结构进行存储,从而形成网页的DOM树;

步骤S320,清理DOM树中的无用节点,所述无用节点是指与主题信息抽取无关的节点,包括脚本、样式控制信息和注释。

4.如权利要求2所述的一种提取网页内容的实现方法,其特征在于:所述步骤S240的网页分块过程为:

步骤S410,根据DIV树中div节点的语义属性对网页进行分块;

步骤S420,对步骤S410的分块结果根据视觉属性判断是否合理;视觉属性是步骤S230保存的节点的背景颜色和节点中包含字体的颜色、大小、粗细,对应设置权值分别为α、β、γ、ω;定义一个权值函数f(α,β,γ,ω)来判断当前块是否再可分;当函数值大于设定的阈值R时,说明当前块可再分,否则就不再可分;

接下来,再利用以下判定规则判断相邻分块间内容上的差异度,具体规则如下:

(1)相邻两块的距离越远,差异度越大,设置权值就越大;

(2)相邻两块的背景色不同,差异度越大,设置权值就越大;

(3)对于上下相邻的两块,如果块中字体的大小特征差异性越大,则权值越大;如果上方分块中的字体大小要小于下方分块中的字体,则权值较大,字体大小差异越大,权值越大;但是当两侧分块中的内容较为相似时,则设置权值就较小;

通过上述规则,如果相邻两块的权值小于所设定的阈值T时就合并,否则就不合并。

5.如权利要求3所述的一种提取网页内容的实现方法,其特征在于:所述步骤S310中,采用基于改进的Firefox网页解析算法的网页树结构分析算法来建立DOM树结构。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江盘石信息技术有限公司,未经浙江盘石信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210078159.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top