[发明专利]一种解决字体反爬的爬虫方法在审
申请号: | 201811101254.7 | 申请日: | 2018-09-20 |
公开(公告)号: | CN109241391A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 陈思言;黄元稳;漆尧 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F17/21 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 吴瑞芳 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种解决字体反爬的爬虫方法,包括以下步骤:获取数据源网站自定义图元数据库文件;对自定义图元数据库文件中图元数据标注标准唯一标识号;建立真字与图元数据标准唯一标识号的映射关系表;建立假字与图元数据标准唯一标识号的映射关系表;建立真假字映射关系表;反解析。本发明在解决字体反爬时具有持久性高、通用性强等优点,实现灵活获取和更新字体文件、灵活建立真假字映射关系、灵活的反解析假数据,保证最大限度的数据准确性。 | ||
搜索关键词: | 唯一标识号 映射关系表 图元数据 字体 图元数据库 爬虫 自定义 解析 数据准确性 获取数据 通用性强 映射关系 字体文件 持久性 假数据 灵活的 灵活 网站 标注 更新 保证 | ||
【主权项】:
1.一种解决字体反爬的爬虫方法,其特征在于,包括以下步骤:步骤S1、获取数据源网站自定义图元数据库文件:确定数据源网站采用了自定义字体,并确定哪些元素区域采用了自定义字体,抓包找出元素区域以及字体文件下载URL;步骤S2、对自定义图元数据库文件中图元数据标注标准唯一标识号;步骤S3、建立真字与图元数据标准唯一标识号的映射关系表;步骤S4、建立假字与图元数据标准唯一标识号的映射关系表;步骤S5、建立真假字映射关系表:获取一个新的自定义字体文件,根据步骤S3得到的真字与图元数据标准唯一标识号的映射关系以及步骤S4得到的假字与图元数据标准唯一标识号的映射关系,通过图元数据唯一标识号作为桥梁,即可建立真字和假字的映射关系表;步骤S6、反解析:将爬虫爬取到的进行过字体反爬的数据拆分为一个个字符后,一一传入步骤S5得到的真假字映射关系的处理接口,如果字符能够在映射关系中找到对应关系即进行转换,没有找到即维持原状,最后将转换好的字符拼接到一起,即为真实数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811101254.7/,转载请声明来源钻瓜专利网。