[发明专利]一种基于强化学习的流式文本数据的事件聚类方法有效

专利信息
申请号: 202010255434.1 申请日: 2020-04-02
公开(公告)号: CN111460160B 公开(公告)日: 2023-08-18
发明(设计)人: 邱兴发;邹乔莎;史传进 申请(专利权)人: 复旦大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/284;G06N20/00
代理公司: 上海元好知识产权代理有限公司 31323 代理人: 徐雯琼;张静洁
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 文本 数据 事件 方法
【说明书】:

发明提供一种基于强化学习的流式文本数据的事件聚类方法,包括:S1、通过流式处理获取文本数据的特征表示;S2、获取全部候选事件构成当前事件库,并对每个候选事件进行特征提取和表示;S3、通过基于强化学习的事件聚类训练方法,得到聚类策略;S4、判断当前处理的文本数据的事件归属,更新当前事件库。本发明能及时高效的对海量的不断增长的流式文本数据进行聚类处理,通过引入已有的标注数据的先验知识,进行基于强化学习的事件聚类训练,使得事件聚类的结果更加及时和准确。

技术领域

本发明涉及一种事件聚类方法,具体是指一种基于强化学习的流式文本数据的事件聚类方法,属于数据挖掘领域。

背景技术

在互联网世界的各个角落,每天都有很多事件发生,其中不乏一些热点事件会引发社会舆论的广泛讨论。围绕着这些事件,互联网上每天都在产生着海量的资讯,除传统新闻网站的报道之外,还有自媒体和社交媒体的参与,这使得互联网资讯呈现广泛性和多样性的特点,如何将这些混乱的资讯整理成一个个有序的事件以获得有用信息是一个有意义的研究。

流式数据是一组顺序、大量、快速、连续到达的数据序列,可被视为一个随时间延续而无限增长的动态数据集合。对于互联网上不断产生的流式数据,传统的基于划分或基于密度的聚类方法无法直接使用,因为这些方法需要确定的数据甚至确定的输出聚类数,这与流式数据的潜在无限性不符,而且这些方法还需要进行反复的迭代计算,计算成本较高,很难保证结果的实时性。

现有技术中,针对流式文本数据的事件聚类方法的核心在于文本表示和相似度计算,基本可分为无监督的方法和有监督的方法。其中,所述的无监督的方法基本上是用某些自然语言处理的工具对文本进行处理,提取文本特征,进行文本表示,并且定义一种相似度计算方法,找到一个合适的阈值,通过这些人工定义的规则进行聚类。这种方法的主要问题在于没有从数据中进行学习,人工定义的规则难以适应复杂多变的数据。

而所述的有监督的方法主要包括两种,一种是将问题转化为判断文本对是否属于同一事件的分类问题,可通过使用机器学习或者深度学习的方法提取文本特征并进行分类。这类方法的问题在于实际聚类过程中,对文本进行两两比较的计算成本太高。另一种有监督的方法是提前定义聚类数,然后通过标注数据学习一种合适的划分方法。但是这种方法的问题在于与流式数据的不确定性不相适应。

为了解决上述问题,本发明提供了一种基于强化学习的流式文本数据的事件聚类方法,利用已有的标注数据,学习一种合适的聚类策略,并结合Single-Pass增量式聚类算法,以一种简单高效的方法,对流式文本数据进行实时的处理和分析,从而实现事件聚类。

发明内容

本发明的目的在于提供一种基于强化学习的流式文本数据的事件聚类方法,及时高效的对海量的不断增长的流式文本数据进行聚类处理,通过引入已有的标注数据的先验知识,进行基于强化学习的事件聚类训练,使得事件聚类的结果更加及时和准确。

为了达到上述发明的目的,本发明采用的技术方案为:一种基于强化学习的流式文本数据的事件聚类方法,包括以下步骤:

S1、通过流式处理获取文本数据的特征表示;

S2、获取全部候选事件构成当前事件库,并对每个候选事件进行特征提取和表示;

S3、通过基于强化学习的事件聚类训练方法,得到聚类策略;

S4、判断当前处理的文本数据的事件归属,更新当前事件库。

所述的S1中,具体包含以下步骤:

S11、对输入的文本数据进行流式处理,其中每条文本数据的发布时间作为时间标签;

S12、使用自然语言处理工具提取文本数据中的命名实体或关键词,或直接提取文本数据中的标签,通过采用词嵌入模型,获取每个文本数据的特征表示。

所述的S2中,具体包含以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010255434.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top