[发明专利]一种获取互联网金融广告的方法在审
申请号: | 202010277162.5 | 申请日: | 2020-04-10 |
公开(公告)号: | CN111488509A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 施力;江颖硕;张兆心;唐积强;吴震;卢卫;杨菁林;董群;郭长勇;王伟 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;哈尔滨工业大学(威海) |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/9535;G06Q30/02 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 于振强 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 互联网 金融 广告 方法 | ||
本发明提供一种获取互联网金融广告的方法,包括以下步骤:(1)获取金融广告爬取网站及其链接;(2)打开步骤(1)中的网站和链接,获取网站中金融广告的URL;(3)根据步骤(2)的广告URL和图片src依照Adblock插件过滤规则编写过滤规则列表;(4)根据步骤(3)编写的过滤规则列表,将过滤规则列表保存进数据库;(5)根据步骤(1)中的网站,爬取网站内容,提取相应的url、图片src属性,然后将提取到的内容根据步骤(4)的过滤规则列表通过python的adblockparser解析器进行过滤获取金融广告;其解决了站内广告不规则站点无法使用统一的Xpath规则获取站内的所有广告内容的技术问题。本发明可广泛应用于获取网站内部及其子网站里的广告内容。
技术领域
本发明涉及一种获取金融广告的方法,特别是涉及一种获取互联网金融广告的方法。
背景技术
互联网金融广告的兴起与发展是互联网时代背景下金融业快速发展的产物,但是不防有一些涉嫌违法违规的广告宣传的出现威胁着网络世界,因此需要获取大量的广告数据对其进行深度分析以总结风险广告的内容特征。
我们知道,现如今的爬虫技术能够按照一定规则大量获取搜索引擎,例如针对百度贴吧等这些广告规则的站点,因为这些站点内部的广告的网页源码规则都是一致的,可以使用统一的Xpath规则获取站内全部广告,但是对于站内广告不规则的例如金融网站和财经网站等站点,无法使用统一的Xpath规则获取站内的所有广告内容,因为这些网站内部的广告网页源码规则不一致,若是使用Xpath规则,一个网站便需要写多个广告提取规则,代码冗长,要爬取的网站数目巨多,工程变得异常繁琐。
发明内容
本发明针对站内广告不规则的例如金融网站和财经网站等站点,无法使用统一的Xpath规则获取站内的所有广告内容,因为这些网站内部的广告网页源码规则不一致,若是使用Xpath规则,一个网站便需要写多个广告提取规则,代码冗长,要爬取的网站数目巨多,工程变得异常繁琐的技术问题,提供更便捷和更省力的获取网站内部及其子网站里的广告内容的一种获取互联网金融广告的方法。
为此,本发明的技术方案是,一种获取互联网金融广告的方法,包括以下步骤:
(1)获取金融广告爬取网站及其链接;
(2)打开步骤(1)中的网站和链接,获取网站中金融广告的URL,若有图片也要获取图片src;
(3)根据步骤(2)的广告URL和图片src依照Adblock插件过滤规则编写过滤规则列表;
(4)根据步骤(3)编写的过滤规则列表,将过滤规则列表保存进数据库;
(5)根据步骤(1)中的网站,爬取网站内容,提取相应的url、图片src属性,然后将提取到的内容根据步骤(4)的过滤规则列表通过python的adblockparser解析器进行过滤获取金融广告。
优选地,步骤(1)中通过选取部分金融以及财经类的网站,然后根据这些网站下方的友情链接进行扩展,一般深入两到三层,将所有网站的名称和链接保存进数据库。
优选地,步骤(2)中获取网站中金融广告的URL以及广告图片src,包括以下步骤:
a.通过浏览器打开网站链接;
b.人工识别网站中所有的金融广告,包括图片广告和文字广告;
c.将识别到的广告的URL以及图片广告的src保存至一张表中;
主页识别完毕后,再打开网站内的几个子链接,继续进行步骤b和步骤c,涵盖大部分子网站的广告。
优选地,步骤(3)中的Adblock是一款广告拦截插件,除其本身自有的广告过滤清单,还可以人工设置广告的过滤规则来达到更加高级的广告过滤需求;过滤规则主要用到以下几项:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;哈尔滨工业大学(威海),未经国家计算机网络与信息安全管理中心;哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010277162.5/2.html,转载请声明来源钻瓜专利网。