[发明专利]一种获取信息的方法及装置有效

专利信息
申请号: 201010292828.0 申请日: 2010-09-25
公开(公告)号: CN102411594A 公开(公告)日: 2012-04-11
发明(设计)人: 李少年;蔡俊 申请(专利权)人: 中国移动通信集团湖南有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 410015 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 获取 信息 方法 装置
【说明书】:

技术领域

发明涉及数据处理领域,尤其涉及一种获取信息的方法及装置。

背景技术

随着社会信息化程度不断提高,信息系统数据量不断膨胀,不同行业需要处理、分析大量并且不断更新的数据流。目前,各行业面临的问题是数据量非常大,但其中真正有价值的信息却很少,因此,如何从大量并且不断更新的数据中挖掘出有价值的信息以对后续业务进行指导,成为困扰各行业的难点。

数据挖掘就是为顺应从大量数据中获取有价值信息的需要应运而生的数据处理技术。数据挖掘又称数据库中的知识发现(knowledge discovery indatabase),是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。

从大量数据中获取有价值的信息,目前通用的做法是利用关系数据库,具体过程为:将用于获取信息的大量数据统一加载到关系数据库中,然后在此基础上对加载的数据进行数据挖掘以求发现有用的信息。关系数据库是以关系模型为基础的数据库,该关系模型中定义了各种数据关系,即利用定义的关系来描述数据,其中,一个关系既可以用来描述一个实体及其属性,也可以用来描述实体间的联系。因此,根据关系数据库对数据进行处理,首先将数据源文件完成完整加载形成满足关系数据库范式检查的数据集合,然后对数据库表在组合属性上进行投影计算,得到计算统计值。在实际应用中,采用关系数据库从大量数据中获取信息,需要等待用于获取信息的全部数据产生完毕后再一次性加载到关系数据库中处理,使得在关系数据库中需要进行关系计算的数据量聚集,由此导致的问题在于:一方面,需要消耗大量的CPU、I/O、内存等系统资源,系统开销很大;另一方面,需要一次性处理的数据量庞大,处理过程需要耗费大量的时间,信息获取效率低。

综上所述,现有技术基于关系数据库从数据中获取信息,信息获取效率低,并且系统开销大。

发明内容

有鉴于此,本发明实施例提供一种获取信息的方法及装置,采用该技术方案,一方面提高了信息获取的效率,另一方面降低了系统开销。

本发明实施例通过如下技术方案实现:

根据本发明实施例的一个方面,提供了一种获取信息的方法。

根据本发明实施例提供的获取信息的方法,预先确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段;

针对每个子时间段执行:

加载当前子时间段产生的数据;

确定加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;

确定在当前子时间段之前的所有子时间段产生的数据中所述各项集对应的第二信息熵;

根据所述各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。

根据本发明实施例的另一个方面,还提供了一种获取信息的装置。

根据本发明实施例提供的获取信息的装置,包括:

数据加载单元,用于确定用于获取信息的数据,并将产生所述数据的时间段划分为多个子时间段,并加载当前子时间段产生的数据;

第一信息熵确定单元,用于确定所述数据加载单元加载的所述数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵;

第二信息熵确定单元,用于确定所述数据加载单元在当前子时间段之前的所有子时间段加载的数据中所述各项集对应的第二信息熵;

项集集合更新单元,用于根据所述第一信息熵确定单元确定的各项集对应的第一信息熵以及所述第二信息熵确定单元确定的第二信息熵更新用于标识获取的信息的项集集合。

通过本发明实施例提供的上述至少一个技术方案,预先确定用于获取信息的数据,并将产生数据的时间段划分为多个子时间段,针对每个子时间段执行:加载当前子时间段产生的数据,确定加载的数据中由预先设定的至少一个数据属性组合得到的各项集对应的第一信息熵,确定在当前子时间段之前的所有子时间段产生的数据中各项集对应的第二信息熵,并根据各项集对应的第一信息熵以及第二信息熵更新用于标识获取的信息的项集集合。采用该技术方案,将用于获取信息的数据根据其产生时间划分为多个子时间段,一次只加载一个时间段的数据,基于该时间段内产生的数据更新用于标识获取的信息的项集集合,与现有技术相比,将从数据中获取信息的任务分布为多个执行,大大减少了每次处理的数据量,从而提高了信息获取的效率,并且降低了系统开销。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团湖南有限公司,未经中国移动通信集团湖南有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010292828.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top