[发明专利]一种web页面转换方法及系统有效
申请号: | 201610154451.X | 申请日: | 2016-03-16 |
公开(公告)号: | CN105740475B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 陈湘萍;赖少凡;陈榕涛;陈庆;程健;高逸斌 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510006 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 页面 转换 方法 系统 | ||
1.一种web页面转换方法,其特征在于,所述方法包括:
采用HTML文档对象模型对输入的HTML文件进行处理,获取文档对象模型树;
对所述文档对象模型树进行子树处理,根据处理结果获取所述子树对应的页面信息元;
对所述页面信息元进行相似性处理,根据相似性处理结果建立所述页面信息元间的映射关系;
根据所述映射关系,将待转换页面信息沿所述映射关系注入目标页面中,完成页面转换。
2.根据权利要求1所述的web页面转换方法,其特征在于,所述HTML文件包括待转换HTML文件和目标HTML文件。
3.根据权利要求1所述的web页面转换方法,其特征在于,所述对所述文档对象模型树进行子树处理,根据处理结果获取所述子树对应的页面信息元,包括:
对所述文档对象模型树进行遍历处理,获取所述文档对象模型树的叶子节点;
确定所述叶子节点当前深度为d,根据所述深度d,扩展深度为d-1的叶子节点;
计算所述深度为d-1的叶子节点中的子树在所述文档对象模型树中出现频次;
判断若所述出现频次不小于阈值时,则继续扩展所述叶子节点深度,若所述出现频次小于阈值时,则输出所述子树作为文档对象模型子树;
获取所述文档对象模型子树对应的页面信息元。
4.根据权利要求1所述的web页面转换方法,其特征在于,所述对所述页面信息元进行相似性处理,根据相似性处理结果建立所述页面信息元间的映射关系,包括:
对所述页面信息元进行相似性处理,获取所述页面信息元中相似性最高的两个页面信息元;
将所述相似性最高的两个页面信息元进行关联处理,获取页面信息元间的映射关系。
5.根据权利要求1所述的web页面转换方法,其特征在于,所述根据所述页面信息元间的所述映射关系,将待转换页面信息沿所述映射关系注入目标页面中,包括:
对文档对象模型子树进行处理,获取所述文档对象模型子树的最小重复单元;
将待转换页面信息沿所述映射关系注入目标页面的所述最小重复单元,获取转换最小重复单元;
根据所述转换最小重复单元进行页面转换,完成页面转换。
6.一种web页面转换系统,其特征在于,所述系统包括:
文件处理模块:用于采用HTML文档对象模型对输入的HTML文件进行处理,获取文档对象模型树;
页面信息元获取模块:用于对所述文档对象模型树进行子树处理,根据处理结果获取所述子树对应的页面信息元;
映射建立模块:用于对所述页面信息元进行相似性处理,根据相似性处理结果建立所述页面信息元间的映射关系;
页面转换模块:用于根据所述映射关系,将待转换页面信息沿所述映射关系注入目标页面中,完成页面转换。
7.根据权利要求6所述的web页面转换系统,其特征在于,所述HTML文件包括待转换HTML文件和目标HTML文件。
8.根据权利要求6所述的web页面转换系统,其特征在于,所述页面信息元获取模块包括:
遍历处理单元:用于对所述文档对象模型树进行遍历处理,获取所述文档对象模型树的叶子节点;
深度确定与扩展单元:用于确定所述叶子节点当前深度为d,根据所述深度d,扩展深度为d-1的叶子节点;
出现频次计算单元:用于计算所述深度为d-1的叶子节点中的子树在所述文档对象模型树中出现频次;
判断单元:用于判断若所述出现频次不小于阈值时,则继续扩展所述叶子节点深度,若所述出现频次小于阈值时,则输出所述子树作为文档对象模型子树;
页面信息元获取单元:获取所述文档对象模型子树对应的页面信息元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610154451.X/1.html,转载请声明来源钻瓜专利网。