[发明专利]一种基于内容相似的网页分割方法有效

专利信息
申请号: 201310669395.X 申请日: 2013-12-10
公开(公告)号: CN103631944A 公开(公告)日: 2014-03-12
发明(设计)人: 童名文;彭红超;郝秋红;牛琳;栗欢;杨蕾;张小娟 申请(专利权)人: 华中师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 张火春
地址: 430079 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 内容 相似 网页 分割 方法
【权利要求书】:

1.一种基于内容相似的网页分割方法,其特征在于,包括以下步骤:

步骤1:自动获取移动终端软硬件配置信息并存储;

步骤2:依据用户请求获取Web服务器中的Web网页;

步骤3:对步骤2得到的Web页面,进行HTML规范处理与CSS预处理,实现HTML规范化和样式信息与数据的绑定;

步骤4:根据内容块检测算法获取经步骤3处理后的Web网页中所有内容块;

步骤5:对于步骤4得到的内容块,依据人类视觉特征得出六维度内容视觉向量空间,并定义内容视觉空间里两点相似度计算公式;

步骤6:构建加权无向连通图,依据移动终端软硬件配置信息,采用Kruskal算法对加权无向连通图进行分割,得到所述的加权无向连通图的子图;

步骤7:关联所有子图,建立子图关系,选取第一个子图作为主页面推送给用户。

2.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤1中所述的终端软硬件配置信息包括移动终端品牌,移动终端型号,移动终端系统类型及版本,移动终端分辨率,移动终端浏览器类型、版本、内核信息,并设定所述的移动终端品牌、移动终端型号、移动终端系统类型及版本移动终端浏览器类型、版本、内核信息为主键。

3.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤3所述的对步骤2得到的Web页面进行HTML规范化,其具体采用HTMLClear Jar包实现。

4.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤3所述的对步骤2得到的Web页面进行CSS预处理,其具体实现包括以下子步骤:

步骤3.1:获取所述的Web页面的进行HTML规范化后的样式信息;

步骤3.2:关联样式信息和标签;

步骤3.3:输出HTML和PerfectNode关联类列表。

5.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤3.2所述的关联样式信息和标签,其具体实现包括以下子步骤:

步骤3.2.1:查找所述的关联样式信息的对应标签;

步骤3.2.2:定义“样式信息—标签”关联类;

步骤3.2.3:样式冲突检测与处理。

6.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤5中所述的六维度内容视觉向量空间为cv=(内容块相关度,内容类型,空白,背景色,字体信息,边框信息)。

7.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤5所述的内容视觉空间里两点相似度计算公式定义为:

S(i,j)=1nΣk=1nωkSk(i,j)]]>

其中n为内容视觉空间里总点数,即内容块数;Sk(i,j)表示内容视觉空间里i,j两点第k维度的相似度;ωk表示维度权重。

8.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤6所述的构建加权无向连通图方法如下:将内容块看作顶点,内容块间的相似度看作顶点间边的权值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310669395.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top