[发明专利]一种基于强化学习的流式文本数据的事件聚类方法有效
申请号: | 202010255434.1 | 申请日: | 2020-04-02 |
公开(公告)号: | CN111460160B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 邱兴发;邹乔莎;史传进 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06N20/00 |
代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 徐雯琼;张静洁 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 文本 数据 事件 方法 | ||
1.一种基于强化学习的流式文本数据的事件聚类方法,其特征在于,包含以下步骤:
S1、通过流式处理获取文本数据的特征表示;所述的S1中,具体包含以下步骤:
S11、对输入的文本数据进行流式处理,其中每条文本数据的发布时间作为时间标签;
S12、使用自然语言处理工具提取文本数据中的命名实体或关键词,或直接提取文本数据中的标签,通过采用词嵌入模型,获取每个文本数据的特征表示;
S2、获取全部候选事件构成当前事件库,并对每个候选事件进行特征提取和表示;所述的S2中,具体包含以下步骤:
S21、通过时间窗口方法,获取全部候选事件构成当前事件库;其中,所述的候选事件是指,按照距离当前时间由近至远的顺序,发布时间在最接近当前时间的某个时间窗口内的文本数据的集合;
S22、根据每个文本数据的时间标签和特征表示,对每个候选事件进行表示,通过采用时间衰减模型,突出其中发布时间更接近当前时间的文本数据的特征,分析并捕捉该候选事件随时间的特征变化;
S3、通过基于强化学习的事件聚类训练方法,得到聚类策略;所述的S3中,具体包含以下步骤:
S31、对已有的标注数据按输入的时间顺序进行排列,得到标准事件库,作为事件聚类训练时的环境;
S32、根据当前文本数据的特征表示,对该文本数据进行事件归属的判断,将该文本数据划分至当前事件库中的某一事件中,作为事件聚类训练时的当前动作,并得到该文本数据的聚类结果以及更新的当前事件库;
S33、将更新的当前事件库作为事件聚类训练时的当前状态;
S34、通过将聚类结果与标准事件库进行比较,得到对应当前动作和当前状态的奖赏;
S35、根据奖赏,对当前状态下的当前动作进行指导,通过学习完成当前文本数据的事件聚类训练;并返回S32对下一个文本数据进行事件聚类训练,直至全部文本数据完成训练得到聚类策略;
S4、判断当前处理的文本数据的事件归属,更新当前事件库。
2.根据权利要求1所述的基于强化学习的流式文本数据的事件聚类方法,其特征在于,所述的S22中,时间衰减模型具体为:对于每个候选事件,将其中发布时间越接近当前时间的文本数据,赋予越高的权重值,分析并提取该候选事件最新的特征。
3.根据权利要求1所述的基于强化学习的流式文本数据的事件聚类方法,其特征在于,所述的S4中,采用Single-Pass增量式聚类方法对当前处理的文本数据进行事件归属的聚类处理。
4.根据权利要求3所述的基于强化学习的流式文本数据的事件聚类方法,其特征在于,所述的S4中,具体包含以下步骤:
根据S3中学习得到的聚类策略,判断当前处理的文本数据归属于当前事件库中的某一候选事件,并更新该候选事件的表示,以更新当前事件库;
根据S3中学习得到的聚类策略,判断当前处理的文本数据并不属于当前事件库中的任何一个候选事件,因此在当前事件库中成立一个新事件;
在完成对该文本数据的处理之后,通过流式方式继续处理下一个文本数据,实现当前数据库的动态处理和实时更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010255434.1/1.html,转载请声明来源钻瓜专利网。