[发明专利]一种应用于移动终端的网页压缩方法有效
申请号: | 201010588500.3 | 申请日: | 2010-12-14 |
公开(公告)号: | CN102541863A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 胡晨鹏 | 申请(专利权)人: | 联芯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 卢刚 |
地址: | 201206 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 移动 终端 网页 压缩 方法 | ||
1.一种应用于移动终端的网页压缩方法,该方法首先分别对html文档和css文档进行解析,生成文档对象模型树以及渲染树,根据html文档中的链接下载所需的资源,最后将资源嵌入在网页文档中进行渲染并呈现网页;其特征在于:在生成文档对象模型树之后进行网页压缩,并在网页压缩后再根据html文档中的连接下载所需资源。
2.如权利要求1所述的应用于移动终端的网页压缩方法,其特征在于:所述网页压缩包括如下步骤:
步骤一、将网页划分为不同的内容块;
步骤二、将不同的内容块根据与网页主题的相关度划分为主题内容集合以及非主题内容集合;
步骤三、将非主题内容集合中的元素与主题内容集合中元素进行相似度比较,相似度低于设定阈值的,则过滤非主题内容集合中的元素,如果相似度高于设定阈值的,则保留该主题内容集合中的元素。
3.如权利要求2所述的应用于移动终端的网页压缩方法,其特征在于:所述的步骤一中通过遍历文档对象模型树中的不同标签网页划分成为不同的内容块。
4.如权利要求2所述的应用于移动终端的网页压缩方法,其特征在于:所述的步骤二中进一步包括如下步骤:
获取内容块j的权重CWj,即内容块j权值在网页划分的所有内容块中占据的重要度,Wj代表内容块j的权值,:
根据权重将N个内容块划分为主题内容集合C(C1,C2,…Ck,…CK),和非主题内容集合θ(θ1,θ2,…θk,…θN-K),其中K<N。
当内容块j的权重CWj大于设定阈值时,该内容块j就可以被认为是主题内容集合,反之,则该内容块j被划分为非主题内容集合。
5.如权利要求3所述的应用于移动终端的网页压缩方法,其特征在于:权值Wj主要取决于内容块j位于网页的位置以及该内容块j内链接的资源的媒体类型。
6.如权利要求2所述的应用于移动终端的网页压缩方法,其特征在于:所述步骤三进一步包括如下步骤:
遍历网页中的文字,提取网页中出现过的词组,组成该网页的关键词集合,设词组的总数为n,则该网页的关键词组合为T(T1,T2,…Ti,…Tn);
为每个内容块构建特征向量W(w1,w2,…wi,…wn),该特征向量包含n个分量,每个分量由关键词集合T(T1,T2,…Ti,…Tn)中的每个元素在该内容块中的词频计算得到,其中,Tfij为关键词Ti在内容块j中的词频,CWj为内容块j的权重;
获取非主题内容集合θ(θ1,θ2,…θk,…θN-K)内元素的特征向量与主题内容集合C(C1,C2,…Ck,…CK)内元素的特征向量的余弦距离,该余弦距离即作为非主题内容模块与主题内容模块的相似度:
Xi和Yi分别代表了进行相似度运算的特征向量的第i个分量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联芯科技有限公司,未经联芯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010588500.3/1.html,转载请声明来源钻瓜专利网。