[发明专利]基于正则表达式的URL过滤方法在审
申请号: | 201510650016.1 | 申请日: | 2015-09-28 |
公开(公告)号: | CN105302876A | 公开(公告)日: | 2016-02-03 |
发明(设计)人: | 孙燕群 | 申请(专利权)人: | 孙燕群 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 257000 山东省东营市东营*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 公开了基于正则表达式的URL过滤方法。该方法包括:步骤1,获取要抓取的第一URL,抓取第一URL所对应的页面;步骤2,展示所述第一URL所对应的页面文本内容与多个第二URL,并提示用户输入URL过滤规则与文本过滤规则;步骤3,响应于用户提交了URL过滤规则,应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL;步骤4,将所述一个或多个第三URL加入抓取队列。 | ||
搜索关键词: | 基于 正则 表达式 url 过滤 方法 | ||
【主权项】:
一种URL过滤方法,包括:步骤1,获取要抓取的第一URL,抓取第一URL所对应的页面;步骤2,展示所述第一URL所对应的页面文本内容与多个第二URL,并提示用户输入URL过滤规则与文本过滤规则;步骤3,响应于用户提交了URL过滤规则,应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL;步骤4,将所述一个或多个第三URL加入抓取队列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙燕群,未经孙燕群许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510650016.1/,转载请声明来源钻瓜专利网。
- 上一篇:污染源三维地理信息系统
- 下一篇:一种搜索引擎查询方法及装置