[发明专利]基于正则表达式的URL过滤方法在审
申请号: | 201510650016.1 | 申请日: | 2015-09-28 |
公开(公告)号: | CN105302876A | 公开(公告)日: | 2016-02-03 |
发明(设计)人: | 孙燕群 | 申请(专利权)人: | 孙燕群 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 257000 山东省东营市东营*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正则 表达式 url 过滤 方法 | ||
1.一种URL过滤方法,包括:
步骤1,获取要抓取的第一URL,抓取第一URL所对应的页面;
步骤2,展示所述第一URL所对应的页面文本内容与多个第二URL,并提示用户输入URL过滤规则与文本过滤规则;
步骤3,响应于用户提交了URL过滤规则,应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL;
步骤4,将所述一个或多个第三URL加入抓取队列。
2.一种URL过滤方法,包括:
步骤1,获取要抓取的第一URL,抓取第一URL所对应的页面;
步骤2,删除第一URL所对应的页面中的纯超链接节点;
步骤3,提取第一URL所对应的页面中的指定节点;
步骤4,展示所述指定节点所包含的文本内容与多个第二URL,并提示用户输入URL过滤规则与文本过滤规则;
步骤5,响应于用户提交了URL过滤规则,应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL;
步骤6,将所述一个或多个第三URL加入抓取队列。
3.根据权利要求2所述的方法,还包括:
步骤7,将所述抓取队列中的每个URL设为新的第一URL;
获取抓取深度n,重复n次步骤1至步骤7。
4.根据权利要求2-3所述的方法,其中所述步骤5还包括,获取所述一个或多个第三URL的每一个URL所对应的第二页面,应用所述文本过滤规则过滤所述第二页面;以及在步骤6中,将过滤得到的第二页面所对应的URL加入所述抓取队列。
5.根据权利要求2-4所述的方法,其中所述步骤3,提取第一URL所对应的页面中的指定节点是依据用户指定的页面元素选择所述指定的节点。
6.根据权利要求2-5所述的方法,其中所述URL过滤规则为在URL中包括“page”字符串、日期信息或时间信息。
7.根据权利要求2-6所述的方法,其中步骤2,删除第一URL所对应的页面中的纯超链接节点,具体包括:
提取出第一URL所对应的页面中的一个或多个超链接节点,对每个超链接节点通过公式(1)进行计算:
其中LinkContent(i)表示当前超链接节点下超链接文本的字符数,Content(i)则表示当前超链接节点下所有的字符数;如果E(i)=1,则删除当前超链接节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙燕群,未经孙燕群许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510650016.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:污染源三维地理信息系统
- 下一篇:一种搜索引擎查询方法及装置