[发明专利]一种解决字体反爬的爬虫方法在审
申请号: | 201811101254.7 | 申请日: | 2018-09-20 |
公开(公告)号: | CN109241391A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 陈思言;黄元稳;漆尧 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F17/21 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 吴瑞芳 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 唯一标识号 映射关系表 图元数据 字体 图元数据库 爬虫 自定义 解析 数据准确性 获取数据 通用性强 映射关系 字体文件 持久性 假数据 灵活的 灵活 网站 标注 更新 保证 | ||
1.一种解决字体反爬的爬虫方法,其特征在于,包括以下步骤:
步骤S1、获取数据源网站自定义图元数据库文件:确定数据源网站采用了自定义字体,并确定哪些元素区域采用了自定义字体,抓包找出元素区域以及字体文件下载URL;
步骤S2、对自定义图元数据库文件中图元数据标注标准唯一标识号;
步骤S3、建立真字与图元数据标准唯一标识号的映射关系表;
步骤S4、建立假字与图元数据标准唯一标识号的映射关系表;
步骤S5、建立真假字映射关系表:获取一个新的自定义字体文件,根据步骤S3得到的真字与图元数据标准唯一标识号的映射关系以及步骤S4得到的假字与图元数据标准唯一标识号的映射关系,通过图元数据唯一标识号作为桥梁,即可建立真字和假字的映射关系表;
步骤S6、反解析:将爬虫爬取到的进行过字体反爬的数据拆分为一个个字符后,一一传入步骤S5得到的真假字映射关系的处理接口,如果字符能够在映射关系中找到对应关系即进行转换,没有找到即维持原状,最后将转换好的字符拼接到一起,即为真实数据。
2.根据权利要求1所述的解决字体反爬的爬虫方法,其特征在于,所述步骤S1具体如下:
(1)使用代理IP并抓包查看URL是否一致来判断是否存在不同IP返回URL不一致的问题;
(2)使用固定IP不同时段并抓包查看URL是否一致来判断是否存在固定IP定期更新问题;
上述(1)与(2)中如果存在不一致,则根据请求响应提供的信息找到每次浏览器请求字体文件URL的变换规律,并根据URL的变换规律装好URL下载该网站的图元数据库文件。
3.根据权利要求1所述的解决字体反爬的爬虫方法,其特征在于,所述步骤S2具体如下:
通过可视化工具和字体文件解析程序,根据步骤S1下载的图元数据库文件中每个图元数据的对象信息计算出该图元数据的一个唯一标识号;其中,所述图元数据显示为真字,所述对象信息包括图元关键点和图元坐标。
4.根据权利要求1所述的解决字体反爬的爬虫方法,其特征在于,所述步骤S4具体如下:
通过解析自定义字体文件,获取假字ASCII转换为本地系统字符,再找到假字对应位置的图元数据计算唯一标识号后与假字建立映射关系。
5.根据权利要求1所述的解决字体反爬的爬虫方法,其特征在于,还包括以下步骤:
步骤S7、自定义字体文件存储删除更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811101254.7/1.html,转载请声明来源钻瓜专利网。