[发明专利]动态网页的分块方法无效
申请号: | 200710110675.1 | 申请日: | 2007-06-08 |
公开(公告)号: | CN101127044A | 公开(公告)日: | 2008-02-20 |
发明(设计)人: | 梅宏;周明辉;曹东刚;林泊;文沛 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所 | 代理人: | 余长江 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 网页 分块 方法 | ||
1.一种动态网页的分块方法,其步骤包括::
1)将应用户请求生成的动态网页内容流分别生成相应的不包含格式化结点的扩展DOM树;其中扩展DOM树的节点包括下列信息:
节点值:叶节点的值即该节点所包含的网页文本的内容;内部节点的节点值为空;
子树值:叶节点的子树值即该节点的节点值;内部节点的子树值为该节点所有儿子的子树值的以及节点本身的节点值的串接;
2)对上述节点进行特征编码:
对长度为N的DOM树节点,取其所有长为W的子串,其中0<W<N;
对每个子串进行哈西运算,得到该子串的哈西运算值;
对(N-W+1)个上述哈西运算值,取S个最小的值构成的向量作为该节点的特征编码,其中0<S<(N-W+1);N,W,S均为正整数;
3)遍历各DOM树节点,比较各DOM树对应节点的特征编码值;
4)将超过设定个数的相同或相似节点对应的网页内容设定为共享分块。
2.如权利要求1所述的动态网页的分块方法,其特征在于上述节点的比较过程为:
1)将上述DOM树的节点序列按照其字节大小分放到具有不同大小范围的一系列桶当中;
2)比较各桶中对应节点的特征编码,将相同或相似的节点放到一个组当中;
3)当组中的节点个数大于设定值时,设定该节点对应动态网页的内容为共享分块。
3.如权利要求2所述的动态网页的分块方法,其特征在于将放到组中的节点的子节点从桶中移除。
4.如权利要求2所述的动态网页的分块方法,其特征在于每个桶中节点的数量相同。
5.如权利要求1或2所述的动态网页的分块方法,其特征在于如一节点与另一节点的特征编码值的交集与并集的比值大于设定的阈值,则两节点为相似节点。
6.一种动态网页的分块方法,其步骤包括::
1)将不同时间版本的动态网页内容流分别生成相应的无格式化结点的扩展DOM树;其中DOM树的节点包括下列信息:
节点值:叶节点的值即该节点所包含的网页文本的内容;内部节点的节点值为空;
子树值:叶节点的子树值即该节点的节点值;内部节点的子树值为该节点所有儿子的子树值的以及节点本身的节点值的串接;
2)对上述节点进行特征编码:
对长度为N的DOM树节点,取其所有长为W的子串,其中0<W<N;
对每个子串进行哈西运算,得到该子串的哈西运算值;
对(N-W+1)个上述哈西运算值,取S个最小的值构成的向量作为该节点的特征编码,其中0<S<(N-W+1);N,W,S均为正整数;
3)设定时间点最早的DOM树为基准DOM树;
4)将后续的各DOM树依次与基准DOM树按以下步骤进行比较:
第一步扫描被比较的扩展DOM树,并标示出特征码值变化了的节点;
第二步再次扫描扩展DOM树,输出第一步中被标示的节点;
5)被标示的节点对应的网络页面的内容为定制化分块。
7.如权利要求6所述的动态网页的分块方法,其特征在于上述节点的比较过程为:
1)将上述DOM树的节点序列按照其字节大小分放到具有不同大小范围的一系列桶当中;
2)比较各桶中对应节点的特征编码,标示出特征编码值变化了的节点。
8.如权利要求7所述的动态网页的分块方法,其特征在于每个桶中节点的数量相同。
9.如权利要求6所述的动态网页的分块方法,其特征在于上述被标示的节点输出后,其子节点不会再被输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710110675.1/1.html,转载请声明来源钻瓜专利网。