[发明专利]一种基于视觉分块的网页LOGO提取系统及方法有效
申请号: | 202010972271.9 | 申请日: | 2020-09-16 |
公开(公告)号: | CN112084451B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 余翔湛;史建焘;刘立坤;叶麟;李精卫;张元禛;杨宸;王璞;刘睿;李康 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F40/14;G06V30/412;G06V30/414 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 | 代理人: | 韩立岩 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 分块 网页 logo 提取 系统 方法 | ||
1.一种基于视觉分块的网页LOGO提取方法,是根据一种基于视觉分块的网页LOGO提取系统为基础实现的,该系统包括页面数据提取模块、分隔符探测模块和页面布局重构模块,上述各模块之间呈递进逻辑连接;
页面数据提取模块用于所需特征量的提取;
分隔符探测模块负责分隔符的添加以及规则化分隔;
页面布局重构模块用于将页面内容重新布局重构;
所述的页面数据提取模块由视觉块提取模块和LOGO块提取模块两部分组成;
其特征在于:具体方法步骤如下:
步骤一,在对html页面进行解析,然后通过所述的页面数据提取模块中的视觉块提取模块对视觉块进行提取,通过所述的LOGO块提取模块对LOGO块进行数据提取;
步骤二,利用所述的分隔符探测模块在网页中添加分隔符并通过算法进行分隔;
步骤三,最终通过页面布局重构模块将分隔整理后的内容进行页面布局重构,实现网页LOGO提取;
所述的视觉块提取模块,在网页进行了分隔后,分隔出来每个部分中包含的视觉块之间都有紧密的联系,每个视觉块之间的关联度DOC都高于允许的关联度PDOC;由多个视觉块聚合出来的结构为视觉结构visualstructure,每个视觉结构的特征信息都是由内部所有视觉块的信息构成,其中视觉结构的特征信息具体为:
位置信息:visualstructure的位置信息是一个四元组包括top、left、width和height四个视觉特征量,遍历visualstructure中所有的视觉块,找到最小的top,left和最大的top+height,left+weight,同时用以上这四个数据代表着visualstructure所包含的区域;
图像信息:visualstructure的图像信息为所包含的所有的视觉块图像信息的汇总,视觉块中存在两个字段,一个是记录包含图像个数,一个是图像的链接列表,将所有视觉块中的两个字段进行加和得到visualstructure的图像信息;
背景颜色:提取visualstructure中第一个视觉块的背景颜色作为visualstructure的背景颜色;
文本内容:包含视觉块的所有文本内容;
字体大小:提取第一个视觉块的字体大小当作visualstrcture的字体大小;
根据构建之后的visualstructure,从根节点依次前序遍历每个视觉块信息,提取每个视觉块的视觉特征,visualstructure中的ID代表该结构在树中的位置,根节点ID = “1”,其子节点ID=“1-1”,“1-2”以此类推,为每一个visualstructure根据其ID名字建立一个文件夹用于存放该结构的一些具体文件,如结构中包含图片,则根据img,src=“”获取图片的url,获取到块中的图片存储到与之对应的ID文件夹内。
2.根据权利要求1所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:在步骤一中视觉块提取模块根据视觉块的特点进行视觉块提取,视觉块为DOM树节点的子集;视觉块用VisualBlock表示,由多个视觉块组成的视觉结构则用visualstructure表示,所述的视觉块特点具体为:
A.每个视觉块都是一个与网页平行的矩形;
B.一个视觉结构里的所有视觉块之间关联度高于一个阈值,说明这个结构中内容关
联度高,可以合并为一个视觉结构;
C.视觉块中包含位置信息,字体大小,文本个数,链接个数,图片个数;
D.视觉块之间不存在重合;
E.视觉结构拥有所有视觉块的特点。
3.根据权利要求2所述的一种基于视觉分块的网页LOGO提取方法,其特征在于:所述的位置信息以top、left、heigh和width作为坐标四元组,top和left分别定义节点显示区域矩形的左上角定点与页面下边沿的像素距离;heigh指矩形区域的高度,width指矩形区域的宽度;确定四元组进而确定VisualBlock的显示区域,所述的字体大小通过解析VisualBlock包含的DOM树结点获得,对所有节点的字体大小进行统计;所述的图片个数对包含的DOM树节点解析,获取到image标签,统计个数并且保存链接生成DOM树,最终利用CSSBOX类库模型对视觉块进行提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010972271.9/1.html,转载请声明来源钻瓜专利网。