[发明专利]一种提取网页内容的实现方法有效

专利信息
申请号: 201210078159.6 申请日: 2012-03-22
公开(公告)号: CN102663023A 公开(公告)日: 2012-09-12
发明(设计)人: 刘金玉;田宁;刘崟;谭磊 申请(专利权)人: 浙江盘石信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;王利强
地址: 310011 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种提取网页内容的实现方法,包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,首先判断出导航页,并将导航页删除;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。本发明提供一种适用性良好、兼有较好实时性的提取网页内容的实现方法。
搜索关键词: 一种 提取 网页 内容 实现 方法
【主权项】:
1.一种提取网页内容的实现方法,其特征在于:所述实现方法包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,根据统计的根节点的链接总长度α、文本总长度β、链接总个数γ,定义链接密度为设定R是链接密度的阈值,T是链接总个数的阈值,如果当前的布局块的链接密度和链接总个数均大于阈值,则判定为导航页;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江盘石信息技术有限公司,未经浙江盘石信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210078159.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top