[发明专利]基于视觉的列表页识别方法有效
申请号: | 201510910416.1 | 申请日: | 2015-12-10 |
公开(公告)号: | CN105550279A | 公开(公告)日: | 2016-05-04 |
发明(设计)人: | 王树强;张作职 | 申请(专利权)人: | 天津海量信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津市尚仪知识产权代理事务所(普通合伙) 12217 | 代理人: | 王山 |
地址: | 300020 天津市和*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种本发明的基于视觉的列表页识别方法,依据视觉规则对页面的Html进行分块、完成Html主体区域的识别,进而判断是否是列表页以获取必要的连接。先找到网页的主体部分,左右边栏和页眉页脚都忽略,然后根据字体,字号,字重,位置等信息,来判断主体部分,如果是以链接为主体则可判断为列表页。本发明通过模仿人在观察Web页面时候的处理方式,提高了列表页收集的速度和准确度,从而便于及时准确地对网站上变化的内容进行收集。 | ||
搜索关键词: | 基于 视觉 列表 识别 方法 | ||
【主权项】:
一种基于视觉的列表页识别方法,包括以下步骤:A、基于浏览器的下载,获取网页的Dom树;B、进行Html分块,即按照视觉进行分块;C、Html主体区域的识别,以找到主要的区域;D、列表页模式识别,通过模式识别判断是否是列表页;E、分析链接,获取候选链接,找到必要的链接;F、获取到新链接时,返回执行步骤A。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津海量信息技术有限公司,未经天津海量信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510910416.1/,转载请声明来源钻瓜专利网。