[发明专利]基于正则表达式的URL过滤方法在审
申请号: | 201510650016.1 | 申请日: | 2015-09-28 |
公开(公告)号: | CN105302876A | 公开(公告)日: | 2016-02-03 |
发明(设计)人: | 孙燕群 | 申请(专利权)人: | 孙燕群 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 257000 山东省东营市东营*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正则 表达式 url 过滤 方法 | ||
技术领域:
本发明涉及网络信息处理技术领域,具体地说是一种利用爬虫程序通过用户自定义网络爬虫抓取获得网络抓取方案的方法。
背景技术:
随着互联网技术的发展,搜索引擎已经成为人们获取信息的重要方式。现有的搜索引擎都是基于通称为网络爬虫(Crawler)的技术实现。网络爬虫抓取时,难以删选自己想要的有价值的信息,抓取的网页内有镀铬URL链接,如果通过网页源代码来判断该链接是否是目录页或详细页比较困难。爬虫工作原理是搜索引擎定期执行网络爬虫程序,从作为搜索树根的指定初始URL列表开始访问这些URL定位的网页资源,获取网页信息,包括标题、描述HTML网页文档属性的Meta标签等,并从这些信息中提取关键词,添加到搜索时用的数据库中,以及从这些信息中提取指向网页资源的URL并将这些新提取的URL作为起点开始新一轮的访问处理,通过这种访问处理的循环得到一个定期更新的综合性的搜索数据库,当用户向搜索引擎提供关键字后,搜索引擎通过检索搜索数据库,按排名规则向用户返回搜索成果,完成一次搜索过程。
目前网络爬虫程序大都基于页面结构实现数据的获取,通过获取网页文档,将网页文档解析成DOM树形式,根据DOM树的规则,HTML文档中的所有元素都用节点来表示,根据DOM树构建抽取规则,进行数据抽取,在数据抽取过程中,由于网页信息源的异构性,为了不损失抽取精度,需要针对每个网站都构造相应的抽取规则,这样爬虫程序的覆盖率很低,极大的限制了网络资源获取的可能性;基于DOM树的网络页面获取技术能够提高数据获取的效率和系统资源利用率,但是在数据抽取过程中会依赖该页面具体的标签节点,一旦对应的页面结构发生变化或者出现新的标签节点命名规则,不但会使爬虫获取不到正确的数据,还会进一步导致爬虫程序停止数据获取工作。
发明内容:
本发明针对现有技术中存在的缺点和不足,提出了一种能够不依赖具体标签节点进行的数据抽取,并能够有效的处理实际爬行节点动态加入与退出造成的重复爬行问题,极大的提高了系统的调度效率,降低系统调度的性能损失的通过用户自定义网络爬虫抓取获得网络抓取方案的方法。
用户可通过判断特定网页的目录页或详细页的组成规则,自定义正则表达式,使用正则表达是来过滤众多的URL,获取需要的目录页或详细页或特定页。
对于固定的网站,其目录页或详细页的URL链接地址是相对固定不变的,通过上层网页转至下层网页时,获得了上一层网页的全部页内链接,通过设置规则,例如正则表达式,来只提取目录页或只提取详细页。
根据本发明,提供了一种URL过滤方法,包括:步骤1,获取要抓取的第一URL,抓取第一URL所对应的页面;步骤2,展示所述第一URL所对应的页面文本内容与多个第二URL,并提示用户输入URL过滤规则与文本过滤规则;步骤3,响应于用户提交了URL过滤规则,应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL;步骤4,将所述一个或多个第三URL加入抓取队列。
根据本发明,还提供了一种URL过滤方法,包括:步骤1,获取要抓取的第一URL,抓取第一URL所对应的页面;步骤2,删除第一URL所对应的页面中的纯超链接节点;步骤3,提取第一URL所对应的页面中的指定节点;步骤4,展示所述指定节点所包含的文本内容与多个第二URL,并提示用户输入URL过滤规则与文本过滤规则;步骤5,响应于用户提交了URL过滤规则,应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL;步骤6,将所述一个或多个第三URL加入抓取队列。
根据本发明提供的URL过滤方法,还包括:步骤7,将所述抓取队列中的每个URL设为新的第一URL;获取抓取深度n,重复n次步骤1至步骤7。
根据本发明提供的URL过滤方法,其中所述步骤5还包括,获取所述一个或多个第三URL的每一个URL所对应的第二页面,应用所述文本过滤规则过滤所述第二页面;以及在步骤6中,将过滤得到的第二页面所对应的URL加入所述抓取队列。
根据本发明提供的URL过滤方法,其中所述步骤3,提取第一URL所对应的页面中的指定节点是依据用户指定的页面元素选择所述指定的节点。
根据本发明提供的URL过滤方法,其中所述URL过滤规则为在URL中包括“page”字符串、日期信息或时间信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙燕群,未经孙燕群许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510650016.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:污染源三维地理信息系统
- 下一篇:一种搜索引擎查询方法及装置