[发明专利]一种网页内容重构方法和系统在审
申请号: | 201510586254.0 | 申请日: | 2015-09-15 |
公开(公告)号: | CN106528068A | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 李慧云;陆钢;何震苇 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 刘剑波 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网页内容重构方法和系统。该方法包括以下步骤获取网页源码;遍历网页节点,以建立与网页结构一致的DOM树内存结构模型;解析建立的DOM树内存结构模型,记录节点的信息元素,并对节点赋予唯一的序列;对节点进行简化处理,以形成新对象;根据序列对新对象的节点及其内容进行提取;将提取的内容进行重新组合,并关联新的样式表,以形成新的网页内容。由于筛除了样式、广告、外链等与主体内容无关的节点,对网页结构进行了简化,能够迅速定位到重要信息,减少对页面内容的大范围遍历,有利于网页数据的采集。 | ||
搜索关键词: | 一种 网页 容重 方法 系统 | ||
【主权项】:
一种网页内容重构方法,其特征在于,包括:获取网页源码;遍历网页节点,以建立与网页结构一致的DOM树内存结构模型;解析建立的DOM树内存结构模型,记录节点的信息元素,并对节点赋予唯一的序列;对节点进行简化处理,以形成新对象;根据序列对新对象的节点及其内容进行提取;将提取的内容进行重新组合,并关联新的样式表,以形成新的网页内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510586254.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种信息加密方法、装置及终端
- 下一篇:一种数据处理方法及系统