[发明专利]基于操作流的异步交互式数据挖掘系统及方法有效
申请号: | 200810060418.6 | 申请日: | 2008-04-18 |
公开(公告)号: | CN101276371A | 公开(公告)日: | 2008-10-01 |
发明(设计)人: | 吴朝晖;吴毅挺;秘中凯;付志宏;封毅;姜晓红;陈华均 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) | 代理人: | 应圣义 |
地址: | 310000浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 操作 异步 交互式 数据 挖掘 系统 方法 | ||
技术领域
本发明涉及AJAX领域和数据挖掘集成技术领域,特别是涉及一种数据挖掘系统及方法。
背景技术
随着信息和知识经济时代的飞速发展,各科学研究领域都已积累了大量的科学数据,而且这些数据仍在呈指数级不断增长的趋势。如何从海量的数据中获取有意义的信息,分析其中的有效特征,就成了一个很大的问题。
首先,越来越多的数据被存储在分布式数据库,复杂的数据库结构,如何从庞大的数据库中获取需要的数据无疑也增加了数据挖掘的困难。其次,是各种数据格式、结构各不相同,同样一个算法,可能每次处理不同格式的数据,都需要修改源代码;同样当需要把结果集以不同的格式输入到文件或数据库时,也需要修改代码。再者,目前的数据挖掘都依赖于特定的软件,必需先安装才能使用。
进一步的,当前使用的数据挖掘系统的Web站点强制用户进入提交/等待/重新显示范例,用户的动作总是与服务器的“思考时间”同步。
发明内容
本发明的目的在于提供一种无需安装软件,使用方便的基于操作流的异步交互式数据挖掘系统及方法。
本发明解决其技术问题采用的技术方案如下:
一种基于操作流的异步交互式数据挖掘系统,包括客户端和服务器端,客户端采用GWT-EXT构建AJAX用户界面;服务端架设在Web容器上,包括以下几个模块:
基于语义集成的分布式数据库模块,用于提供基于语义的分布式数据库访问,用户在不需要知道分布式数据库结构的情况下,就能根据自己的领域知识获取需要的数据。
操作符参数模块,用来为客户端提供操作符参数服务,当用户在客户端使用和配置某个操作符时,客户端把操作符名字异步发送至服务端,再由操作符参数模块返回该操作符的参数信息。
用户管理模块,用于操作符远程文件参数配置、新用户注册申请批准、用户验证、实验管理、管理员权限设置。
Rapid Miner内核模块,用来运行用户实验,并提供操作符应用接口,返回挖掘结果集。
一种基于操作流的异步交互式数据挖掘系统,还包括web service模块,用于应用各大互连网公司提供的开放API,从互连网获取数据,作为数据挖掘的数据源。
一种基于操作流的异步交互式数据挖掘系统,还包括数据库模块,用来以JDBC方式连接普通数据库,并提供数据库用户向导,可以保存用户连接配置到服务端,根据用户选择动态生成SQL语句,还能提供SQL执行结果预览。
一种基于操作流的异步交互式数据挖掘系统,所述的Web容器为ApacheTomcat服务器。
一种利用基于操作流的异步交互式数据挖掘系统的数据挖掘方法,主要包括以下几个步骤:
501、用户通过浏览器登陆该系统;
502、客户端发送用户登陆信息至服务端的用户管理模块进行权限验证;
503、新建数据挖掘试验;
504、服务端的用户管理模块对用户工作目录进行管理,添加新试验;
505、从操作符列表中选取需要的操作符、操作符子链,创建操作符树;
506、当用户选择操作符时,客户端发送操作符名至服务端,操作符参数模块负责把操作符提示信息异步发送到客户端;
507、操作符参数模块同时把操作符参数信息以xml形式发送至客户端;
508、配置操作符参数,客户端已经有获取的操作符信息;
509、提交数据挖掘实验,同时保存;
5010、客户端把数据挖掘操作树转化成xml,提交给RapidMiner内核,RapidMiner内核启动一个新的实验进程运行该数据挖掘实验;
5011、实验运行完毕,把结果集发送至客户端;
5012、客户端以图表形式展示结果集。
本发明与背景技术相比,具有的有益的效果是:
●完整性:基于操作流的异步交互式数据挖掘系统及方法包括抽象与构建操作符库、构建数据挖掘实验室树、操作符参数配置、实验提交与运行、操作流断点调试、结果集返回与可视化、系统配置与用户管理等七个步骤,是一套完整的数据挖掘系统及方法的解决方案。
●扩展性:通过可配置的注册机制,实现自定义操作符的加入和整合;只要遵循定义好的接口,就可以开发自定义的操作符,经注册以后就可以直接投入使用。
●可重用性:所有的操作符在一个实验里均可重复使用,极大的提高了软件的可重用性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810060418.6/2.html,转载请声明来源钻瓜专利网。