[发明专利]一种网页数字信息的保护方法及系统有效
申请号: | 201010240246.8 | 申请日: | 2010-07-28 |
公开(公告)号: | CN102346736A | 公开(公告)日: | 2012-02-08 |
发明(设计)人: | 孙翔 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/24 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 数字 信息 保护 方法 系统 | ||
技术领域
本申请涉及互联网技术领域,特别是涉及一种网页数字信息的保护方法及系统。
背景技术
网络爬虫是搜素引擎系统在数据准备之前的一个核心子系统,网络爬虫通常充当为搜索引擎收集数据的角色;爬虫的主要工作,是对网页进行抓取(下载),然后对网页内包含或隐藏的数据进行提取或识别,整理为搜索引擎接受的格式或数据结构,供搜索引擎建立索引。由于网络爬虫具有对网页内的数据进行提取与识别的功能,因此也经常用于收集网站内容。
另一方面,作为拥有数据的网站,从网站发展战略的角度出发,未必希望自己的数据被大量收集,特别是当某些信息具有同行业内的竞争价值时,这些网站就面临着对信息进行保护,以防止被同行业使用网络爬虫大量抓取的技术需求。
其中,在各种类别的信息中,数字信息作用往往较为关键。以口碑网(www.koubei.com)为例,店铺相关信息包括“店名”、“地址”、“电话”、“评论”等等,其中,电话信息是相当一部分用户关注的目标,并且还有其他一些基于电话信息的数据质量保证的应用,如利用电话号码确定所有人或企业的地理位置、作为纠错与地理位置推演的依据等等。可见,一条准确的电话号码信息,对数据的质量与有效性的贡献很大,相反,即便其他方面的信息比较完整,但唯独缺少电话信息,也会显得数据本身的完整性缺失比较明显;因此,对于数字信息的保护也尤其重要。
数字信息本质上是由阿拉伯数字组成的文本字符串,现有技术中比较常用的保护措施是将数字文本转换成图像在网页上展现,一般用户往往不会关注信息到底是文本还是图像,因此这种方式并不会影响用户的阅读,但是对于一般的网络爬虫而言,只能够从网页上直接获取图像却无法自动识别其中的文本信息,从而大大提高了网络爬虫获取信息的难度,起到了信息保护的作用。
然而随着OCR(Optical Character Recognition,光学字符识别)等图像识别技术的发展,越来越多的网络爬虫也集成了图像识别功能,可以从图像中识别出文本信息。只是单纯地将数字信息转换为图像已经难以实现信息保护的效果
发明内容
为解决上述技术问题,本申请实施例提供一种网页数字信息的保护方法及系统,以提高数字信息的抗识别能力,技术方案如下:
一种网页数字信息保护方法,包括:
将数字信息文本转换为图像,所述数字信息包含的数字字符个数N≥2;
将所述图像分割为n个矩形区域,每个矩形区域中包括至少一个数字字符的图像,其中2≤n≤N;
对每个矩形区域分别进行随机几何形变;
组合所有形变后的区域得到变形图像,所述变形图像用于在网页发布。
一种网页数字信息保护系统,包括:
信息转换单元,用于将数字信息文本转换为图像,所述数字信息包含的数字字符个数N≥2;
分割单元,用于将所述图像分割为n个矩形区域,每个矩形区域中包括至少一个数字字符的图像,其中2≤n≤N;
形变单元,用于对每个矩形区域分别进行随机几何形变;
组合单元,用于组合所有形变后的区域得到变形图像,所述变形图像用于在网页发布。
本申请实施例提供的技术方案,将数字信息文本转换为图像之后,进一步按照数字分布将图像分割为若干矩形区域,然后分别对每个矩形区域进行随机几何形变,形变后的图像可用于网页上发布,从而对网络爬虫的图像识别功能产生干扰效果。此外,对于提供数据的网页而言,对多个区域进行几何形变的计算开销与对整个图像进行几何形变的计算开销基本相当;但是对于识别者而言,由于每个区域使用的变换函数都不相同,破解难度将成倍增加。而采用随机几何形变的方式,可以使得每次刷新网页时都使用不同的变换函数,进一步增加了破解难度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例对图像进行几何形变的示意图;
图2a和图2b为本申请实施例对图像进行校正的示意图;
图3为本申请实施例一种网页数字信息保护方法的流程图;
图4为本申请实施例对图像进行区域分割的示意图;
图5为本申请实施例对矩形区域进行随机几何形变的方法流程图;
图6为本申请实施例对矩形区域取顶点的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010240246.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置