[发明专利]一种基于非负矩阵分解的事件分析方法与系统在审

申请号：	201410495959.7	申请日：	2014-09-24
公开（公告）号：	CN104281663A	公开（公告）日：	2015-01-14
发明（设计）人：	张日崇;邰振赢;于伟仁;刘俊伟;李建欣	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	刘芳
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于矩阵分解事件分析方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据挖掘技术领域，尤其是涉及一种基于非负矩阵分解的事件分析方法与系统。

背景技术

随着互联网技术的蓬勃发展，越来越多的用户通过比如论坛、微博等社交网络平台来发布各种新闻或者发表个人对一些社会现象的意见，从而导致互联网上的各种数据信息也呈现出爆炸式增长，如何对海量的数据信息进行有效的事件挖掘是各搜索引擎一个主要研究的问题。

现有的一种数据挖掘的方式是采用层次式的聚类方式，对给定数据对象集合进行层次的分解，直到某种截止条件满足为止。具体又可分为：凝聚的层次聚类：一种自底向上的策略，首先将每个数据对象作为一个原子簇，然后以数据对象间的相似性为依据合并这些原子簇为越来越大的簇，直到某个截止条件被满足。分裂的层次聚类：采用自顶向下的策略，它首先将所有数据对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个截止条件。

但是，由于层次聚类的方式本身的特性决定了其具有较高的计算复杂度，使得可扩展性受限，不适于应用在海量数据的事件挖掘中。

发明内容

针对上述存在的问题，本发明提供一种基于非负矩阵分解的事件分析方法与系统，用以克服现有技术中的层次聚类方式导致较高的计算复杂度和较差的可扩展性的缺陷。

本发明提供了一种基于非负矩阵分解的事件分析方法，包括：

获取待处理数据，所述待处理数据中包括至少一个数据文本；

分别对所述至少一个数据文本中的每个数据文本进行分词处理，得到与所述待处理数据对应的文本空间矩阵，所述文本空间矩阵描述了所述至少一个数据文本中所包含的词语信息；

对所述文本空间矩阵进行非负矩阵分解，根据分解得到的基矩阵确定所述待处理数据中包含的各个事件以及分别用于描述所述各个事件的关键词，并根据分解得到的系数矩阵确定分别与所述各个事件对应的数据文本。

本发明提供了一种基于非负矩阵分解的事件分析系统，包括：

获取模块，用于获取待处理数据，所述待处理数据中包括至少一个数据文本；

处理模块，用于分别对所述至少一个数据文本中的每个数据文本进行分词处理，得到与所述待处理数据对应的文本空间矩阵，所述文本空间矩阵描述了所述至少一个数据文本中所包含的词语信息；

计算模块，用于对所述文本空间矩阵进行非负矩阵分解，根据分解得到的基矩阵确定所述待处理数据中包含的各个事件以及分别用于描述所述各个事件的关键词，并根据分解得到的系数矩阵确定分别与所述各个事件对应的数据文本。

本发明提供的基于非负矩阵分解的事件分析方法与系统，在获取到包含多个数据文本的待处理数据后，以词语为单位，对该多个数据文本分别进行分词处理，从而得到用于描述该待处理数据中包含的多个数据文件信息以及该多个数据文件信息中包含的所有词语的文本空间矩阵。进而，在该文本空间矩阵进行非负矩阵分解，根据分解得到的基矩阵得到待处理数据中包含的各个事件以及分别用于描述所述各个事件的关键词，并根据分解得到的系数矩阵确定分别与每个事件对应的数据文本，即包含该事件的数据文本。通过构造待处理数据的文本空间矩阵，并对该文本空间矩阵进行非负矩阵分解，从而将一个规模庞大的矩阵分解成为两个规模较小的矩阵，并且保证分解前后矩阵元素的非负性，即在分解前后同一位置上的元素为正数，在保证事件挖掘结果的准确性的同时，通过降维找到待处理数据中包含的事件，计算简便，可扩展性较好。

附图说明

图1为本发明基于非负矩阵分解的事件分析方法实施例一的流程图；

图2为本发明基于非负矩阵分解的事件分析方法实施例二的流程图；

图3为本发明基于非负矩阵分解的事件分析系统实施例一的结构示意图；

图4为本发明基于非负矩阵分解的事件分析系统实施例二的结构示意图。

具体实施方式

图1为本发明基于非负矩阵分解的事件分析方法实施例一的流程图，如图1所示，该方法包括：

步骤101、获取待处理数据，所述待处理数据中包括至少一个数据文本；

步骤102、分别对所述至少一个数据文本中的每个数据文本进行分词处理，得到与所述待处理数据对应的文本空间矩阵，所述文本空间矩阵描述了所述至少一个数据文本中所包含的词语信息；

步骤103、对所述文本空间矩阵进行非负矩阵分解，根据分解得到的基矩阵确定所述待处理数据中包含的各个事件以及分别用于描述所述各个事件的关键词，并根据分解得到的系数矩阵确定分别与所述各个事件对应的数据文本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载