[发明专利]基于短文本数据的区域事件检测方法和设备有效

专利信息
申请号: 201410635944.6 申请日: 2014-11-05
公开(公告)号: CN104331483B 公开(公告)日: 2017-12-01
发明(设计)人: 胡春明;文章乐;沃天宇;随培培 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同立钧成知识产权代理有限公司11205 代理人: 张娜
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 文本 数据 区域 事件 检测 方法 设备
【说明书】:

技术领域

发明属于数据挖掘技术领域,尤其是涉及一种基于短文本数据的区域事件检测方法和设备。

背景技术

随着互联网技术的蓬勃发展,越来越多的用户通过比如论坛、微博等社交网络平台来发布各种新闻或者发表个人对一些社会现象的意见。微博由于其独特的通信服务,如便捷性、即时性和易用,允许用户快速响应和无限制的传播信息内容,得到了越来越广泛的应用。数亿用户利在微博上通过短文本数据进行信息的传送和评论,爆炸式的数据信息带来前所未有的价值的同时,也给互联网安全检测和分析带来了巨大的挑战,对海量的数据信息进行有效的事件挖掘成为各搜索引擎主要研究的问题。

目前,对事件进行发现和挖掘比较有效的方法是聚类方法。聚类方法首先对数据进行聚类,然后通过一个相似度阈值约束,将得到的主题结果进行分类,分类结果中一类是历史事件的演变,另一类是新发现的事件,然而该方法并不能对数据进行静态的分析,将当前数据信息按事件进行归纳和分类,且聚类方法也不适用于对短文本数据信息的分析。

发明内容

本发明提供一种基于短文本数据的区域事件检测方法和设备,用以克服现有技术中无法对短文本数据信息进行有效的处理以进行归纳和分类的问题。

本发明提供了一种基于短文本数据的区域事件检测方法,包括:

获取待处理的短文本数据,所述短文本数据中包括位置信息;

根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据;

分别对选取的样本文本数据进行分词处理,计算所述样本文本数据中各词的权重;

根据所述样本文本数据中各词的权重构建所述样本文本数据对应的词—样本文本矩阵;

对所述词—样本文本矩阵进行矩阵分解,根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

本发明提供了一种基于短文本数据的区域事件检测设备,包括:

获取模块,用于获取待处理的短文本数据,所述短文本数据中包括位置信息;

选取模块,用于根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据;

运算模块,用于分别对选取的样本文本数据进行分词处理,计算所述样本文本数据中各词的权重;

构建模块,用于根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本—词矩阵;

所述运算模块,还用于对所述样本文本—词矩阵进行矩阵分解,根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。

本发明提供的基于短文本数据的区域事件检测方法和设备,通过获取待处理的短文本数据,所述短文本数据中包括位置信息;根据所述位置信息从所述短文本数据中选取与预设的位置对应的样本文本数据;分别对选取的样本文本数据进行分词处理,计算所述样本文本数据中各词的权重;根据所述样本文本数据中各词的权重构建所述样本文本数据对应的样本文本—词矩阵;对所述样本文本—词矩阵进行矩阵分解,根据分解得到的样本文本—事件矩阵确定所述各样本文本所属的事件。从而克服了现有技术中无法对短文本数据信息进行有效的处理以进行归纳和分类的问题。

附图说明

图1为本发明提供的基于短文本数据的区域事件检测方法实施例一的流程示意图;

图2A为本发明提供的基于短文本数据的区域事件检测方法实施例二对应S120的流程示意图;

图2B为本发明提供的基于短文本数据的区域事件检测方法实施例二对应S140的流程示意图;

图3为本发明提供的基于短文本数据的区域事件检测设备实施例一的结构示意图。

具体实施方式

图1为本发明提供的基于短文本数据的区域事件检测方法实施例一的流程示意图。如图1所示,该方法包括:

S100,获取待处理的短文本数据,所述短文本数据中包括位置信息。

本实施例提供的方法可以适用于对互联网上的各种应用所产生的短文本信息中的海量数据进行区域事件分类处理,尤其适用于诸如微博等社交网络,该方法可以由一短文本数据的处理设备来执行,该处理设备例如可以为某中应用的管理平台。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410635944.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top