[发明专利]一种提取网页内容的实现方法有效
申请号: | 201210078159.6 | 申请日: | 2012-03-22 |
公开(公告)号: | CN102663023A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 刘金玉;田宁;刘崟;谭磊 | 申请(专利权)人: | 浙江盘石信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;王利强 |
地址: | 310011 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 网页 内容 实现 方法 | ||
1.一种提取网页内容的实现方法,其特征在于:所述实现方法包括以下步骤:
步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;
步骤S120,对网页类型进行判断,根据统计的根节点的链接总长度α、文本总长度β、链接总个数γ,定义链接密度为设定R是链接密度的阈值,T是链接总个数的阈值,如果当前的布局块的链接密度和链接总个数均大于阈值,则判定为导航页;
步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;
步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。
2.如权利要求1所述的一种提取网页内容的实现方法,其特征在于:所述步骤S110中,网页进行分割处理的流程为:
步骤S210,将输入的网页进行预处理:首先将网页解析为文档对象模型树,对模型树进行处理,将注释节点和空格文本节点删除;
步骤S220,构建新的DOM树,对DOM树中节点定义所需要的语义属性:链接个数、链接长度、文本长度和无关词长度,并将标签为table的节点改为div;
步骤S230,统计文档模型树中每个节点的语义信息,所述语义信息包括链接总个数、链接长度、文本长度和无关词长度,以及每个节点的视觉属性,所述视觉属性包括背景颜色和字体的大小、粗细、颜色,为后面的分块和信息提取作准备;
步骤S240,首先构建只包含div节点的DIV树,根据设定的阈值及判定规则,利用节点统计的语义属性进行分块,判断的顺序是由下而上。
3.如权利要求1或2所述的一种提取网页内容的实现方法,其特征在于:所述步骤S210的网页预处理过程为:
步骤S310,将网页解析成文档对象模型DOM树:依次读入网页的内容,识别每个HTML标签的名称、类别、参数和内容,以树状结构进行存储,从而形成网页的DOM树;
步骤S320,清理DOM树中的无用节点,所述无用节点是指与主题信息抽取无关的节点,包括脚本、样式控制信息和注释。
4.如权利要求2所述的一种提取网页内容的实现方法,其特征在于:所述步骤S240的网页分块过程为:
步骤S410,根据DIV树中div节点的语义属性对网页进行分块;
步骤S420,对步骤S410的分块结果根据视觉属性判断是否合理;视觉属性是步骤S230保存的节点的背景颜色和节点中包含字体的颜色、大小、粗细,对应设置权值分别为α、β、γ、ω;定义一个权值函数f(α,β,γ,ω)来判断当前块是否再可分;当函数值大于设定的阈值R时,说明当前块可再分,否则就不再可分;
接下来,再利用以下判定规则判断相邻分块间内容上的差异度,具体规则如下:
(1)相邻两块的距离越远,差异度越大,设置权值就越大;
(2)相邻两块的背景色不同,差异度越大,设置权值就越大;
(3)对于上下相邻的两块,如果块中字体的大小特征差异性越大,则权值越大;如果上方分块中的字体大小要小于下方分块中的字体,则权值较大,字体大小差异越大,权值越大;但是当两侧分块中的内容较为相似时,则设置权值就较小;
通过上述规则,如果相邻两块的权值小于所设定的阈值T时就合并,否则就不合并。
5.如权利要求3所述的一种提取网页内容的实现方法,其特征在于:所述步骤S310中,采用基于改进的Firefox网页解析算法的网页树结构分析算法来建立DOM树结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江盘石信息技术有限公司,未经浙江盘石信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210078159.6/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法