[发明专利]样本数据收集系统在审
申请号: | 201410307397.9 | 申请日: | 2014-06-30 |
公开(公告)号: | CN104063474A | 公开(公告)日: | 2014-09-24 |
发明(设计)人: | 张鹏;张美琦;张爱华;张朝阳 | 申请(专利权)人: | 五八同城信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 秦莹 |
地址: | 300457 天津市滨海新区第一*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 数据 收集 系统 | ||
技术领域
本发明涉及计算机技术领域,特别是涉及一种样本数据收集系统。
背景技术
目前,分类信息网站在识别低质信息时可以通过很多不同的系统进行识别,每个系统的使用的方法不同,并且是由不同的人员开发的。但不管如何识别信息,找到识别方法的唯一途径就是分析具体的样本,但是在实际工作中发现,如何找到具有代表性的样本同时能够保证样本的新鲜程度是一件非常困难的事情。
通过样本数据收集能够提供具有代表性的样本,并且保证样本数量的充足,新鲜和准确,给后续的识别工作减少了很大的工作量。现有技术中的样本收集手段,是根据各种需要识别的问题分别收集相应的样本。这些样本可能来自于数据库、历史日志、挖掘出来的一些信息或者是用户的申诉。而且每次在做开发或者分析的时候,由于需要新鲜的样本,需要每次将数据库,历史日志,挖掘出来的一些信息或者是用户的申诉重新导出。
如上所述,现有技术中的样本数据收集存在以下问题:1、由于现有收集手段为非系统化的收集,因此样本数据准确率得不到保障;2、且利用现有收集手段所获得的样本时效性较差,多不能实时得到最新的样本;3、由于现有的样本收集手段是为需要识别的问题而收集相应的样本,因此针对每个技术和产品可能都需要花时间整理和开发抽取样本的代码;4、样本的分类体系不完善。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的样本数据收集系统。
本发明提供一种样本数据收集系统,包括:数据库接口,用于提供访问数据库的接口;数据库,连接于数据库接口,用于通过数据库接口存储接收到的样本数据,并根据用户的请求发送相应的样本数据;特征抽取模块,连接于数据库接口,用于通过数据库接口获取数据库中的样本数据,根据预先设置的逻辑将样本数据抽取为特征数据,并进行存储,根据用户的请求发送相应的特征数据。
优选地,上述系统进一步包括:辅助模块,连接于数据库,用于对数据库中存储的样本数据进行统计和管理。
优选地,上述辅助模块具体包括:修正子模块,用于自动对数据库中不准确的样本数据进行修正;超时数据删除子模块,用于自动对数据库中存储超过预定时间的样本数据进行删除;老数据删除子模块,用于自动对数据库中已经抽取为特征数据的样本数据进行删除;统计子模块,用于在动对数据库中不同类别的样本数据进行定期统计,并在样本数据量低于预先设置的阈值时,自动向用户发送样本数据量不足的提醒。
优选地,上述老数据删除子模块具体用于:将特征数据的记录时间与数据库中存储的相应样本数据的记录时间进行比较;如果特征数据的记录时间早于样本数据的记录时间,则确定保留样本数据,如果特征数据的记录时间晚于样本数据的记录时间,则进一步判断能否针对该样本数据补充新的特征数据,如果能补充则保留样本数据,否则删除样本数据。
优选地,上述系统进一步包括:后台管理模块,连接于数据库接口,用于通过数据库接口对数据库中的样本数据进行分类,和/或创建新的样本数据类别。
优选地,上述后台管理模块进一步用于:根据用户的操作对样本数据进行校对,并修正不准确的样本数据。
优选地,上述特征抽取模块具体用于:根据预先设置的逻辑,收集、和/或提取样本数据的一个或多个特征数据,并对样本数据对应的特征数据进行归纳存储。
优选地,上述样本数据包括:样本标识ID、以及样本分类。
优选地,上述特征数据包括:对某类行为的描述、以及对该类行为取样的周期。
优选地,上述样本数据收集系统用于为分类信息网站的信息识别提供样本数据和特征数据。
本发明有益效果如下:
借助于本发明实施例的样本数据收集系统,能够减少获取样本数据的成本,节省开发的时间,并进一步提高了样本数据的准确性和实效性,对样本的数量也有了保证,为后面产品和技术在分析和开发中提供大量的帮助。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的样本数据收集系统的结构示意图;
图2是本发明实施例的样本数据收集系统的优选结构示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五八同城信息技术有限公司,未经五八同城信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410307397.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于电力大数据的负荷曲线并行聚类方法
- 下一篇:网页浏览方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置