[发明专利]一种基于互联网数据采集的方法无效

专利信息
申请号: 201110311090.2 申请日: 2011-10-14
公开(公告)号: CN102315991A 公开(公告)日: 2012-01-11
发明(设计)人: 沈重;杜文才;程启凯 申请(专利权)人: 海南大学
主分类号: H04L12/26 分类号: H04L12/26;H04L29/06
代理公司: 海口兴南知识产权事务有限公司 46002 代理人: 戴巨龙
地址: 570228 *** 国省代码: 海南;66
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 互联网 数据 采集 方法
【权利要求书】:

1.一种基于互联网数据采集的方法,该方法基于TCP/IP的可编程系统,该系统开发出操作系统的代理程序,代理系统驻留在目标系统中,监视驻留系统中发生的各类事件,并对不同类型的数据进行采集;它还可修改代理服务器的配置,控制采集的数据类型;数据类型包括基于硬件网关型数据、基础资源型数据、数据库访问型数据、网站访问型数据;其特征在于:

代理服务器部署在各个子网上,按照统一的格式,实时或定时的进行“拉入”操作;将采集到的行为数据封装、打包、存入数据仓库;在获得初始数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理主要步骤分为去噪、关联、标记三个过程。

2.根据权利要求1所述的基于互联网数据采集的方法,其特征在于:该数据采集方法包括客户端数据产生及代理服务器的数据采集处理;客户端数据产生包括以下步骤:

(1)客户端启动,运行程序;

(2)与服务器端进行连接;

(3)向服务器发送校验代码,在服务器端注册此客户端;

(4)校验机器时间;

(5)客户端向操作系统注册窗口监听器、进程活动监听器以及网络监听器;

(6)运行监听器;

(7)一旦客户端得到指定类型的活动后,就按指定类型的活动方式采集用户数字学习行为的详细信息,并记录到客户端缓存,进入步骤(8);

(8)如果监听器运行超过指定时间,则向服务器端发送用户活动记录,发送成功后,清空已发送信息的缓存记录;

服务器端工作流程:

(1)服务器端程序启动;

(2)程序初始化,包括校验时间、加载客户机身份校验数据、网络可用性校验;

(3)启动服务,开启数据接收端口,准备接受客户端数据;

(4)循环检验客户端发送数据请求,一旦检验到请求,则交付步骤(5)处理;

(5)检验客户端合法性,如果合法,交付步骤(6)处理;

(6)服务器端接受数据;

(7)服务器端获得数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理的主要步骤分为去噪、关联、标记三个过程;

(a)去噪:

RTs属于同一天且差值为15分钟的文件归为1组,统计出该组的文件数目和RTs最大的文件对应的Mtime,进而得到该组记录相对与接收端的开始时间MRTs=Mtime-C*TH;

将RTs、Ts、Te修正为MRTs、MTs、MTe,其中MTs=Ts+ΔT,MTe=Te+ΔT,ΔT=MRTs-RTs,将记录修正为Record=<Title,MTs,offset>,其中offset=MTe-MTs;

该组其他文件删除;

(b)关联:

将SJ按照同一天同一时间段和身份进行分组,成员数量超过班级总人数1/3的认为是课堂学习记录,并提取分类集合class=<username,identity,inTime,outTime,tName>;

对分类集合中的每条记录,如满足TName相同且inTime<MTs<outTime的记录,作为该条记录所对应的行为记录集合Behavior=<username,inTime,List<Record>>;

根据SJ和用户身份信息将行为记录集合、班级信息和课表信息进行关联;

(c)标记:

对行为数据集中的所有记录进行分类,对每条记录按照既定类型进行划分并标记,即将记录修改为R<Title,MTs,offset,Type,Value>;参照CNNIC的划分类型,共分为11类:资源下载、桌面、娱乐、邮箱、学习、搜索、即时通信、获取信息、购物、SNS;标记的赋值,则根据此条记录是否与学习相关来进行,其中与学习相关记为1,无法判定记为0,与娱乐相关记为-1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南大学,未经海南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110311090.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top