[发明专利]一种获取信息的方法及装置有效
申请号: | 201010292828.0 | 申请日: | 2010-09-25 |
公开(公告)号: | CN102411594A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 李少年;蔡俊 | 申请(专利权)人: | 中国移动通信集团湖南有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 410015 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 信息 方法 装置 | ||
技术领域
本发明涉及数据处理领域,尤其涉及一种获取信息的方法及装置。
背景技术
随着社会信息化程度不断提高,信息系统数据量不断膨胀,不同行业需要处理、分析大量并且不断更新的数据流。目前,各行业面临的问题是数据量非常大,但其中真正有价值的信息却很少,因此,如何从大量并且不断更新的数据中挖掘出有价值的信息以对后续业务进行指导,成为困扰各行业的难点。
数据挖掘就是为顺应从大量数据中获取有价值信息的需要应运而生的数据处理技术。数据挖掘又称数据库中的知识发现(knowledge discovery indatabase),是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。
从大量数据中获取有价值的信息,目前通用的做法是利用关系数据库,具体过程为:将用于获取信息的大量数据统一加载到关系数据库中,然后在此基础上对加载的数据进行数据挖掘以求发现有用的信息。关系数据库是以关系模型为基础的数据库,该关系模型中定义了各种数据关系,即利用定义的关系来描述数据,其中,一个关系既可以用来描述一个实体及其属性,也可以用来描述实体间的联系。因此,根据关系数据库对数据进行处理,首先将数据源文件完成完整加载形成满足关系数据库范式检查的数据集合,然后对数据库表在组合属性上进行投影计算,得到计算统计值。在实际应用中,采用关系数据库从大量数据中获取信息,需要等待用于获取信息的全部数据产生完毕后再一次性加载到关系数据库中处理,使得在关系数据库中需要进行关系计算的数据量聚集,由此导致的问题在于:一方面,需要消耗大量的CPU、I/O、内存等系统资源,系统开销很大;另一方面,需要一次性处理的数据量庞大,处理过程需要耗费大量的时间,信息获取效率低。
综上所述,现有技术基于关系数据库从数据中获取信息,信息获取效率低,并且系统开销大。
发明内容
有鉴于此,本发明实施例提供一种获取信息的方法及装置,采用该技术方案,一方面提高了信息获取的效率,另一方面降低了系统开销。
本发明实施例通过如下技术方案实现:
根据本发明实施例的一个方面,提供了一种获取信息的方法。
根据本发明实施例提供的获取信息的方法,预先确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段;
针对每个子时间段执行:
加载当前子时间段产生的数据;
确定加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;
确定在当前子时间段之前的所有子时间段产生的数据中所述各项集对应的第二信息熵;
根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。
根据本发明实施例的另一个方面,还提供了一种获取信息的装置。
根据本发明实施例提供的获取信息的装置,包括:
数据加载单元,用于确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段,并加载当前子时间段产生的数据;
第一信息熵确定单元,用于确定所述数据加载单元加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;
第二信息熵确定单元,用于确定所述数据加载单元在当前子时间段之前的所有子时间段加载的数据中所述各项集对应的第二信息熵;
项集集合更新单元,用于根据所述第一信息熵确定单元确定的各项集对应的第一信息熵以及所述第二信息熵确定单元确定的第二信息熵更新用于标识获取的信息的项集集合。
通过本发明实施例提供的上述至少一个技术方案,预先确定用于获取信息的数据,并将产生数据的时间段划分为多个子时间段,针对每个子时间段执行:加载当前子时间段产生的数据,确定加载的数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵,确定在当前子时间段之前的所有子时间段产生的数据中各项集对应的第二信息熵,并根据各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。采用该技术方案,将用于获取信息的数据根据其产生时间划分为多个子时间段,一次只加载一个时间段的数据,基于该时间段内产生的数据更新用于标识获取的信息的项集集合,与现有技术相比,将从数据中获取信息的任务分布为多个执行,大大减少了每次处理的数据量,从而提高了信息获取的效率,并且降低了系统开销。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团湖南有限公司,未经中国移动通信集团湖南有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010292828.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置