首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于正则表达式的URL过滤方法在审

申请号：	201510650016.1	申请日：	2015-09-28
公开（公告）号：	CN105302876A	公开（公告）日：	2016-02-03
发明（设计）人：	孙燕群	申请（专利权）人：	孙燕群
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	257000 山东省东营市东营***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于正则表达式 url 过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种URL过滤方法，包括：

步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面；

步骤2，展示所述第一URL所对应的页面文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则；

步骤3，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL；

步骤4，将所述一个或多个第三URL加入抓取队列。

2.一种URL过滤方法，包括：

步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面；

步骤2，删除第一URL所对应的页面中的纯超链接节点；

步骤3，提取第一URL所对应的页面中的指定节点；

步骤4，展示所述指定节点所包含的文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则；

步骤5，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL；

步骤6，将所述一个或多个第三URL加入抓取队列。

3.根据权利要求2所述的方法，还包括：

步骤7，将所述抓取队列中的每个URL设为新的第一URL；

获取抓取深度n，重复n次步骤1至步骤7。

4.根据权利要求2-3所述的方法，其中所述步骤5还包括，获取所述一个或多个第三URL的每一个URL所对应的第二页面，应用所述文本过滤规则过滤所述第二页面；以及在步骤6中，将过滤得到的第二页面所对应的URL加入所述抓取队列。

5.根据权利要求2-4所述的方法，其中所述步骤3，提取第一URL所对应的页面中的指定节点是依据用户指定的页面元素选择所述指定的节点。

6.根据权利要求2-5所述的方法，其中所述URL过滤规则为在URL中包括“page”字符串、日期信息或时间信息。

7.根据权利要求2-6所述的方法，其中步骤2，删除第一URL所对应的页面中的纯超链接节点，具体包括：

提取出第一URL所对应的页面中的一个或多个超链接节点，对每个超链接节点通过公式(1)进行计算：

E(i)=LinkContent(i)Content(i)---(1),]]>

其中LinkContent(i)表示当前超链接节点下超链接文本的字符数，Content(i)则表示当前超链接节点下所有的字符数；如果E(i)＝1，则删除当前超链接节点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于孙燕群，未经孙燕群许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510650016.1/1.html，转载请声明来源钻瓜专利网。

上一篇：污染源三维地理信息系统
下一篇：一种搜索引擎查询方法及装置

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top