[发明专利]一种基于内容相似的网页分割方法有效
申请号: | 201310669395.X | 申请日: | 2013-12-10 |
公开(公告)号: | CN103631944A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | 童名文;彭红超;郝秋红;牛琳;栗欢;杨蕾;张小娟 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 内容 相似 网页 分割 方法 | ||
技术领域
本发明属于自适应web呈现与web信息提取技术领域,具体来讲,涉及一种基于内容相似的网页分割方法。
背景技术
自适应web呈现技术是自适应技术的一个应用领域,它描述了一类新“智能组件/智能结构”,这些智能组件在工作条件改变的时候具有一个主动适应和目标优化调节的机械特性。这种主动的组件满足了改善系统机械特性、效率、性能及其他特性的要求。
Web信息抽取技术是从Web网页所包含的无结构、半结构或者结构化的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML、关系数据等),是信息提取的一个应用领域。
早在20世纪90年代,人们便开始研究自适应web呈现与web信息提取技术,解决如何将针对PC端设计的网页在移动终端正常问题。30年历程,出现了各种解决方案。解决方法主要有三种:重构网页、转码、网页分割。重构网页即建立一个与PC网页对等的适合不同移动终端显示的移动网页,Web服务器判断是移动终端用户,则选择重构网页作为响应信息,该方法需要消耗大量的人力、物力、财力。转码即采用转码技术将HTML、JSP、ASP、PHP等不适合移动终端显示的代码转换成对等的WML(适合移动终端显示)的代码,由于一个网页含有大量的信息,如果将网页内容全部显示在小屏幕的移动终端中,需要花费大量时间滑动滚动条寻找需要的信息,用户体验极差;网页分割即将网页分割成语义完整的语义块,用户每次看到的仅仅是一个语义块形成的子页,该方法是目前热点研究话题,可分为以下几类:基于标签的网页分割方法、基于DOM的网页分割方法、基于位置关系的网页分割方法、基于模板的网页分割方法、基于视觉的网页分割方法。针对Web网页特点及用途的不同,每类分割方法具有多种不同的具体实现方法,这些具体实现方法一般只针对具有某种特征的网站,使用范围有限。比较先进的VIPS方法因“内容与样式分离”思想的普及应用以及大量网页的不规范,变得力不从心。随着移动终端的迅速发展与3G技术的普及,该矛盾日益突出和尖锐。
采用上述三种方法生成的智能组件有三种部署方案:客户端部署、服务器端部署、代理服务器端部署。客户端部署即在客户端以插件的形式实现,但必须考虑移动终端软硬件性能的有限性以不同设备的兼容性问题。服务器端部署即将组件安装在服务器端,主要有联机部署(使用反向代理)和脱机部署(制成插件安装到网页制作工具中)两种,该部署方法会增加服务器负担,且这种负担会成倍的增加;代理服务器端部署即在服务器端与客服端之间建立一个类似服务器的设备,智能组件安装在该设备中获取与响应用户请求。
发明内容
为了解决上述的技术问题,本发明基于内容相似,从人类视觉角度提出一种解决移动终端浏览器准确、高效显示Web网页问题的网页分割方法,该方法采用代理服务器部署,既避免不同客户端兼容问题,又不会增加Web服务器的负担。
本发明所采用的技术方案是:一种基于内容相似的网页分割方法,其特征在于,包括以下步骤:
步骤1:自动获取移动终端软硬件配置信息并存储;
步骤2:依据用户请求获取Web服务器中的Web网页;
步骤3:对步骤2得到的Web页面,进行HTML规范处理与CSS预处理,实现HTML规范化和样式信息与数据的绑定;
步骤4:根据内容块检测算法获取经步骤3处理后的Web网页中所有内容块;
步骤5:对于步骤4得到的内容块,依据人类视觉特征得出六维度内容视觉向量空间,并定义内容视觉空间里两点相似度计算公式;
步骤6:构建加权无向连通图,依据移动终端软硬件配置信息,采用Kruskal算法对加权无向连通图进行分割,得到所述的加权无向连通图的子图;
步骤7:关联所有子图,建立子图关系,选取第一个子图作为主页面推送给用户。
作为优选,步骤1中所述的终端软硬件配置信息包括移动终端品牌,移动终端型号,移动终端系统类型及版本,移动终端分辨率,移动终端浏览器类型、版本、内核信息,并设定所述的移动终端品牌、移动终端型号、移动终端系统类型及版本移动终端浏览器类型、版本、内核信息为主键。
作为优选,步骤3所述的对步骤2得到的Web页面进行HTML规范化,其具体采用HTMLClear Jar包实现。
作为优选,步骤3所述的对步骤2得到的Web页面进行CSS预处理,其具体实现包括以下子步骤:
步骤3.1:获取所述的Web页面的进行HTML规范化后的样式信息;
步骤3.2:关联样式信息和标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310669395.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于蚀刻液循环再生设备的冷却管
- 下一篇:核酸扩增装置和核酸分析装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法