[发明专利]基于视觉的列表页识别方法有效

申请号：	201510910416.1	申请日：	2015-12-10
公开（公告）号：	CN105550279A	公开（公告）日：	2016-05-04
发明（设计）人：	王树强;张作职	申请（专利权）人：	天津海量信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	天津市尚仪知识产权代理事务所(普通合伙) 12217	代理人：	王山
地址：	300020 天津市和***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于视觉列表识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于视觉的列表页识别方法，包括以下步骤：

A、基于浏览器的下载，获取网页的Dom树；

B、进行Html分块，即按照视觉进行分块；

C、Html主体区域的识别，以找到主要的区域；

D、列表页模式识别，通过模式识别判断是否是列表页；

E、分析链接，获取候选链接，找到必要的链接；

F、获取到新链接时，返回执行步骤A。

2.根据权利要求1所述的基于视觉的列表页识别方法，其特征在于：步骤A中，基于浏览器核心首先下载整体网页和网页附带的代码文件，然后进行渲染，渲染后使每个Dom树的节点获得相应的浏览器的属性，最后输出整体的Dom树。

3.根据权利要求2所述的基于视觉的列表页识别方法，其特征在于：下载过程中增加黑名单，禁止下载多媒体文件；禁止下载广告网站、网站外的资源和非重要的代码文件；区分重要资源和非重要资源；增加Http的Cache功能模块。

4.根据权利要求1或3所述的基于视觉的列表页识别方法，其特征在于：步骤B中，使用Web页面的视觉提示，结合DOM树进行页面语义分块。

5.根据权利要求4所述的基于视觉的列表页识别方法，其特征在于：依视觉进行页面分块时考量的维度包括字符、字符的统计属性和Html页面元素的属性；其中字符维度中又包括字体、字号、字重、文字颜色、背景色和对齐方式的考量；字符的统计属性维度中又包括文字的字符数、链接文字的字符数、文字密度和链接密度；Html页面元素的属性维度中又包括边框、Html元素的属性、背景图片、矩形区域的坐标和宽高和Z轴方向上的层次。

6.根据权利要求5所述的基于视觉的列表页识别方法，其特征在于：步骤C中，Html主体区域识别中所依据的判断维度为：由上至下，离页眉距离近；占页面主体宽度至少60%；占页面的的主体面积；位于网页的明显位置。

7.根据权利要求6所述的基于视觉的列表页识别方法，其特征在于：步骤D中，列表页的判断维度包括：文本的数量、链接的数量、链接的位置信息、链接文字的数量、链接所在的标签名称、链接和链接的相对位置信息，左对齐和间隔均匀、链接块相对主体区域的位置信息、图片链接块的位置信息、链接的宽度信息、链接所在的风格名称的一致性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津海量信息技术有限公司，未经天津海量信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510910416.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于spark-SQL大数据处理平台的数据导入方法
下一篇：双副本并行数据库的查询方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于视觉的列表页识别方法有效

专利文献下载