[发明专利]网页内容获取方法和系统在审

专利信息
申请号: 201510680981.3 申请日: 2015-10-20
公开(公告)号: CN106599001A 公开(公告)日: 2017-04-26
发明(设计)人: 庞涛;武娟;钱锋 申请(专利权)人: 中国电信股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中国国际贸易促进委员会专利商标事务所11038 代理人: 许蓓
地址: 100033 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 内容 获取 方法 系统
【说明书】:

技术领域

发明涉及互联网领域,尤其是一种网页内容获取方法和系统。

背景技术

传统爬虫从一个或若干个初始URL(统一资源定位符)开始,获得初始URL对应的网页上的URL以及其他内容,同时也将当前页面上获得的新的URL放入队列继续抓取,直到满足系统的一定停止条件。所有被爬虫抓取的内容将会被存储,按照关键字、文本、图片、音视频等进行分类、分析、过滤,并建立索引,以便之后的查询和检索。现有的爬虫系统在获取目标网址后,获取目标网页的内容流程如图1所示,包括:

步骤S102,获取目标网页中的网页源代码。

步骤S104,解析源代码中的目标信息。

步骤S106,将解析后的结果保存到数据库中。

然而,有些网站采取了反爬虫措施,阻止爬虫获取网页源代码,从而爬虫无法完成对目标网页信息的获取。

发明内容

本发明实施例所要解决的一个技术问题是:如何在不获取网页源代码的情况下获取目标网页的内容信息。

根据本发明实施例的第一个方面,提供了一种网页内容获取方法,包括:获取目标网址;根据目标网址获取对应的目标网页;将目标网页展示的内容处理成图片格式,得到目标图片;识别目标图片中的文字信息。

在一个实施例中,方法还包括:利用网络爬虫技术获取目标网址; 利用浏览器根据目标网址获取对应的目标网页。

在一个实施例中,方法还包括:对目标图片进行裁剪得到目标图片的识别区域;识别目标图片的识别区域中的文字信息。

在一个实施例中,识别目标图片中的文字信息包括:由服务器集群或云计算资源池识别目标图片中的文字信息。

在一个实施例中,识别目标图片中的文字信息包括:使用光学字符识别技术识别目标图片中的文字信息。

在一个实施例中,方法还包括:对识别出的文字信息进行数据清洗、分类存储和/或建立索引。

根据本发明实施例的第二个方面,提供一种网页内容获取系统,包括:网址获取模块,用于获取目标网址;网页解析模块,用于根据目标网址获取对应的目标网页;图片获取模块,用于将目标网页展示的内容处理成图片格式,得到目标图片;识别模块,用于识别目标图片中的文字信息。

在一个实施例中,系统还包括裁剪模块,用于对目标图片进行裁剪得到目标图片的识别区域,识别模块用于识别目标图片的识别区域中的文字信息。

在一个实施例中,识别模块用于采用光学字符识别技术识别目标图片中的文字信息。

在一个实施例中,系统还包括:数据清洗模块,用于对识别出的文字信息进行数据清洗,分类存储模块,用于将识别出的文字信息进行分类存储,和/或,索引模块,用于对识别出的文字信息建立索引。

在一个实施例中,系统还包括网络爬虫、浏览器,以及服务器集群或云计算资源池;网络爬虫包括网址获取模块,浏览器包括网页解析模块和图片获取模块,服务器集群或云计算资源池包括识别模块。

本发明至少具有以下优点:通过将目标网页转换为图片,再对图片进行内容识别的方式,即可以获取目标网页的内容,而无需获取源代码,通用性较强。

通过以下参照附图对本发明的示例性实施例的详细描述,本发明 的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1示出现有技术中网页内容获取方法的示意图。

图2示出本发明网页内容获取方法一个实施例的流程示意图。

图3示出本发明网页内容获取方法另一个实施例的流程示意图。

图4示出本发明网页内容获取方法又一个实施例的流程示意图。

图5示出本发明对网页部分区域进行内容获取的方法的示意图。

图6(a)、6(b)示出本发明图片区域裁剪的示意图。

图7示出本发明网页内容获取系统一个实施例的结构示意图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510680981.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top