[发明专利]一种网络爬虫模板的行为式生成方法在审
申请号: | 201410627310.6 | 申请日: | 2014-11-10 |
公开(公告)号: | CN104298783A | 公开(公告)日: | 2015-01-21 |
发明(设计)人: | 温杰;李牧;舒文静;高谞 | 申请(专利权)人: | 武汉安问科技发展有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430074 湖北省武汉市关*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 爬虫 模板 行为 生成 方法 | ||
技术领域
本发明涉及计算机网络技术领域,特别是涉及一种网络爬虫模板的行为式生成方法。
背景技术
网络爬虫,是一种按照既定规则,自动抓取网络信息的程序或脚本。随着互联网的深入发展,尤其是承载多元信息网页数目的不断增长,使信息整合梳理角色的搜索引擎面临着技术不断革新的需求。同时,网络安全的日趋严峻也促使Web扫描技术需要更为高效、普适的解决方案,而它们重要组成技术:网络爬虫,其发展进步则对以上技术领域起到深远的影响和直接的推动。从早期的对以HTML为代表的静态网页抓取,一直到对ASP、PHP等动态交互式网站的有效获得,其采用的抓取思想多种多样,诸如基于网页特征、基于数据模式、基于领域等,而技术的选择更是汗牛充栋,从传统的正则表达式一直到现今的模拟浏览器解决方案等,不一而足。
网络爬虫效率、覆盖度和准确性一直是当今研究的热点,这些因素制约着爬虫技术的进一步发展,当今的解决方案往往顾此失彼,很难同时保证三者的效能平衡。随着技术的革新和进步,模板化网络爬虫为此提供了良好的解决方案,在目标网络服务数量较少时,可有效生成不同的爬虫模板,并在此基础上为网络爬虫提升了效能。但面对海量的网络服务时,传统网络爬虫模板却面临生成速度低下,模板智能化程度低的问题,进而制约了网络爬虫效能的进一步提升。
发明内容
针对以上技术问题,本发明以操作者访问网络服务为入口,选取一个或多个网络服务作为训练库,通过采集操作者对网络服务操作的行为集合和网络服务交互数据,并分析其行为特征与网络服务结构特征的关联性,快速构建网络爬虫的模板。较之于传统手段,该方法不仅能快速生成通用模板,而且可进一步提升采用该通用模板的网络数据爬虫的整体效率、覆盖度和准确度。
本发明基于以下步骤实施:
1、操作者访问网络服务;
2、选取一个或多个网络服务作为训练库,进行数据采集;
3、对采集的数据进行特征关联;
4、构建网络爬虫的通用模板。
进一步的,所述网络服务是指在计算机网络中,在网络应用层及其上层运行的应用,它提供的数据存储,处理,演示,通信或其他功能通常用于执行基于应用层网络协议的客户端-服务端或点对点的相关架构,包含但不限于各类网站浏览、网络购物、网络游戏、网络商务、网络政务、网络金融等。
进一步的,所述数据采集是指采集操作者行为集合和网络服务交互数据。
进一步的,所述操作者行为集合是指包含但不限于操作者在访问网络服务时所产生的网站点击、应用使用、页面浏览、鼠标行为、键盘行为、人工标记、表单填充、网址切换、页面停留、软件行为等所产生的一个或多个交互行为。包含但不限于操作者自身生理、心理反应:如眼动反应、心率、表情、脑电波等一个或多个外在行为状态属性的捕捉或数字量化。
进一步的,所述网络服务交互数据是指由于操作者对网络服务的访问而产生网络通信数据,包含但不限于信令传输、数据传输、协议建立等。
进一步的,所述特征关联是指操作者行为特征与网路服务结构特征进行关联。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明总体框架图
具体实施方式
本方法可由多种方式实现,现结合图1所示,本领域一般技术人员可根据以下步骤完成对方法的部署和实施。
1、选取网络服务
选取网络服务中的网站浏览,并选定网站www.163.com。使用鼠标点击、键盘输入的浏览行为。
2、数据采集
1)定义浏览动作
a.符号AX,其中A代表鼠标点击行为,X代表全局点击计数,即:全局第一次点击表示为:A1,全局第二次点击为A2;
b.符号KX,其中K代表键盘输入行为,X代表全局输入次数,即:全局第一次输入表示为:K1,全局第二次输入为K2;
2)操作者行为采集
a.载入网站www.163.com;
b.点击“新闻”,将其作为全局第一次鼠标点击,其符号即为A1;
c.点击“登录”,其为全局第二次鼠标点击,其符号即为A2;
d.输入test@163.com,将其作为全局第一次键盘输入,其符号即为K1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉安问科技发展有限责任公司,未经武汉安问科技发展有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410627310.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:集成触摸屏的液晶显示面板及液晶显示装置
- 下一篇:一种探针块及检测装置