[发明专利]一种基于非负矩阵分解的事件分析方法与系统在审
申请号: | 201410495959.7 | 申请日: | 2014-09-24 |
公开(公告)号: | CN104281663A | 公开(公告)日: | 2015-01-14 |
发明(设计)人: | 张日崇;邰振赢;于伟仁;刘俊伟;李建欣 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 矩阵 分解 事件 分析 方法 系统 | ||
技术领域
本发明属于数据挖掘技术领域,尤其是涉及一种基于非负矩阵分解的事件分析方法与系统。
背景技术
随着互联网技术的蓬勃发展,越来越多的用户通过比如论坛、微博等社交网络平台来发布各种新闻或者发表个人对一些社会现象的意见,从而导致互联网上的各种数据信息也呈现出爆炸式增长,如何对海量的数据信息进行有效的事件挖掘是各搜索引擎一个主要研究的问题。
现有的一种数据挖掘的方式是采用层次式的聚类方式,对给定数据对象集合进行层次的分解,直到某种截止条件满足为止。具体又可分为:凝聚的层次聚类:一种自底向上的策略,首先将每个数据对象作为一个原子簇,然后以数据对象间的相似性为依据合并这些原子簇为越来越大的簇,直到某个截止条件被满足。分裂的层次聚类:采用自顶向下的策略,它首先将所有数据对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个截止条件。
但是,由于层次聚类的方式本身的特性决定了其具有较高的计算复杂度,使得可扩展性受限,不适于应用在海量数据的事件挖掘中。
发明内容
针对上述存在的问题,本发明提供一种基于非负矩阵分解的事件分析方法与系统,用以克服现有技术中的层次聚类方式导致较高的计算复杂度和较差的可扩展性的缺陷。
本发明提供了一种基于非负矩阵分解的事件分析方法,包括:
获取待处理数据,所述待处理数据中包括至少一个数据文本;
分别对所述至少一个数据文本中的每个数据文本进行分词处理,得到与所述待处理数据对应的文本空间矩阵,所述文本空间矩阵描述了所述至少一个数据文本中所包含的词语信息;
对所述文本空间矩阵进行非负矩阵分解,根据分解得到的基矩阵确定所述待处理数据中包含的各个事件以及分别用于描述所述各个事件的关键词,并根据分解得到的系数矩阵确定分别与所述各个事件对应的数据文本。
本发明提供了一种基于非负矩阵分解的事件分析系统,包括:
获取模块,用于获取待处理数据,所述待处理数据中包括至少一个数据文本;
处理模块,用于分别对所述至少一个数据文本中的每个数据文本进行分词处理,得到与所述待处理数据对应的文本空间矩阵,所述文本空间矩阵描述了所述至少一个数据文本中所包含的词语信息;
计算模块,用于对所述文本空间矩阵进行非负矩阵分解,根据分解得到的基矩阵确定所述待处理数据中包含的各个事件以及分别用于描述所述各个事件的关键词,并根据分解得到的系数矩阵确定分别与所述各个事件对应的数据文本。
本发明提供的基于非负矩阵分解的事件分析方法与系统,在获取到包含多个数据文本的待处理数据后,以词语为单位,对该多个数据文本分别进行分词处理,从而得到用于描述该待处理数据中包含的多个数据文件信息以及该多个数据文件信息中包含的所有词语的文本空间矩阵。进而,在该文本空间矩阵进行非负矩阵分解,根据分解得到的基矩阵得到待处理数据中包含的各个事件以及分别用于描述所述各个事件的关键词,并根据分解得到的系数矩阵确定分别与每个事件对应的数据文本,即包含该事件的数据文本。通过构造待处理数据的文本空间矩阵,并对该文本空间矩阵进行非负矩阵分解,从而将一个规模庞大的矩阵分解成为两个规模较小的矩阵,并且保证分解前后矩阵元素的非负性,即在分解前后同一位置上的元素为正数,在保证事件挖掘结果的准确性的同时,通过降维找到待处理数据中包含的事件,计算简便,可扩展性较好。
附图说明
图1为本发明基于非负矩阵分解的事件分析方法实施例一的流程图;
图2为本发明基于非负矩阵分解的事件分析方法实施例二的流程图;
图3为本发明基于非负矩阵分解的事件分析系统实施例一的结构示意图;
图4为本发明基于非负矩阵分解的事件分析系统实施例二的结构示意图。
具体实施方式
图1为本发明基于非负矩阵分解的事件分析方法实施例一的流程图,如图1所示,该方法包括:
步骤101、获取待处理数据,所述待处理数据中包括至少一个数据文本;
步骤102、分别对所述至少一个数据文本中的每个数据文本进行分词处理,得到与所述待处理数据对应的文本空间矩阵,所述文本空间矩阵描述了所述至少一个数据文本中所包含的词语信息;
步骤103、对所述文本空间矩阵进行非负矩阵分解,根据分解得到的基矩阵确定所述待处理数据中包含的各个事件以及分别用于描述所述各个事件的关键词,并根据分解得到的系数矩阵确定分别与所述各个事件对应的数据文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410495959.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电力企业私有云环境资源分配评估模型
- 下一篇:一种学生宿舍专用的服务系统