[发明专利]一种解决字体反爬的爬虫方法在审

专利信息
申请号: 201811101254.7 申请日: 2018-09-20
公开(公告)号: CN109241391A 公开(公告)日: 2019-01-18
发明(设计)人: 陈思言;黄元稳;漆尧 申请(专利权)人: 四川长虹电器股份有限公司
主分类号: G06F16/953 分类号: G06F16/953;G06F17/21
代理公司: 四川省成都市天策商标专利事务所 51213 代理人: 吴瑞芳
地址: 621000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种解决字体反爬的爬虫方法,包括以下步骤:获取数据源网站自定义图元数据库文件;对自定义图元数据库文件中图元数据标注标准唯一标识号;建立真字与图元数据标准唯一标识号的映射关系表;建立假字与图元数据标准唯一标识号的映射关系表;建立真假字映射关系表;反解析。本发明在解决字体反爬时具有持久性高、通用性强等优点,实现灵活获取和更新字体文件、灵活建立真假字映射关系、灵活的反解析假数据,保证最大限度的数据准确性。
搜索关键词: 唯一标识号 映射关系表 图元数据 字体 图元数据库 爬虫 自定义 解析 数据准确性 获取数据 通用性强 映射关系 字体文件 持久性 假数据 灵活的 灵活 网站 标注 更新 保证
【主权项】:
1.一种解决字体反爬的爬虫方法,其特征在于,包括以下步骤:步骤S1、获取数据源网站自定义图元数据库文件:确定数据源网站采用了自定义字体,并确定哪些元素区域采用了自定义字体,抓包找出元素区域以及字体文件下载URL;步骤S2、对自定义图元数据库文件中图元数据标注标准唯一标识号;步骤S3、建立真字与图元数据标准唯一标识号的映射关系表;步骤S4、建立假字与图元数据标准唯一标识号的映射关系表;步骤S5、建立真假字映射关系表:获取一个新的自定义字体文件,根据步骤S3得到的真字与图元数据标准唯一标识号的映射关系以及步骤S4得到的假字与图元数据标准唯一标识号的映射关系,通过图元数据唯一标识号作为桥梁,即可建立真字和假字的映射关系表;步骤S6、反解析:将爬虫爬取到的进行过字体反爬的数据拆分为一个个字符后,一一传入步骤S5得到的真假字映射关系的处理接口,如果字符能够在映射关系中找到对应关系即进行转换,没有找到即维持原状,最后将转换好的字符拼接到一起,即为真实数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811101254.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top