[发明专利]一种基于预训练语言模型的事件检测与摘要方法有效
申请号: | 202010661898.2 | 申请日: | 2020-07-10 |
公开(公告)号: | CN111966917B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 卢国明;段贵多;秦科;罗光春;顾坚彬;李康康 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/34;G06F16/35;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 语言 模型 事件 检测 摘要 方法 | ||
本发明公开了一种基于预训练语言模型的事件检测与摘要方法,该方法基于社交媒体平台,检测热门话题中的关键事件,提升事件检测的效果,同时使用事件摘要提升事件内容的表示效果。该方法包括S1:文本预处理;S2:文本向量化;S3:训练事件检测模型;S4:对挖掘的事件进行展示。本发明使用预训练的语言模型挖掘了输入文本的语义和结构信息,提升了文本的表示效果,同时结合后续的神经网络完成了事件检测和摘要任务,提升了事件检测的精确率和召回率以及事件内容的语义表示效果。
技术领域
本发明涉及数据挖掘和自然语言处理领域,特别涉及一种基于预训练语言模型的事件检测与摘要方法。
背景技术
随着互联网的发展,社交媒体融入了我们的日常生活。广大群众在这些社交媒体平台讨论生活中的热点话题,获取社会动态。这些社交媒体已经成为群众获取信息的重要来源。随着互联网舆情及信息安全领域应用需求的不断发展,了解话题下更细粒度、更深层次、更多角度、更全侧面的内涵显得尤为重要。
一个话题由一组相关事件构成。一系列相关的事件推动着话题发展变化。面对海量信息,提取热点话题内部蕴含的相关事件,有助于展现话题的发展过程,帮助人们了解话题的发展脉络。有效挖掘文本中包含的话题事件已然成为一项严峻的挑战。
事件检测本质是一个聚类的过程,它将文本聚类成簇,一个簇代表一个事件。事件检测算法可以大致分为两类:基于文档的方法,该方法通过基于语义距离对文档进行聚类来检测事件,例如使用基于TF-IDF的向量空间模型计算文本相似度,然后结合SinglePass聚类算法对文本流进行聚类,检测发生的事件;基于特征的方法,该方法研究单词的分布并通过事件发现事件关键词,例如使用主题模型以及相关改进方法挖掘事件的关键词,同时根据文档所属事件的概率对文档进行软聚类。
上述的两种方法在处理文本的时候都只是停留在单词级别,未能深入挖掘文档深层次的信息,导致事件检测效果较差。基于文档的方法依赖于词语级别的相似度比较,无法处理近义词、同义词,对文档内隐含的主题语义信息利用不足,且无法兼顾文档的词汇语义信息。基于特征的方法依赖于特征选择,而且社交媒体文本多是短文本,词共现关系稀疏,影响主题模型的效果。除此之外,这些方法都是以关键词表示事件内容,语义表达不明确,容易引起歧义。
发明内容
目前BERT等预训练的语言模型有效提升了自然语言处理领域相关任务的效果,同时神经网络也能对文本有效建模,处理文本的语义和结构信息。因此针对目前方法存在的问题,本发明使用预训练的语言模型挖掘了文档的语义信息,并且结合后续的神经网络完成事件检测和事件摘要,提升事件检测和表达效果。
本发明提出了一种基于预训练语言模型的事件检测与摘要方法。它通过挖掘文本的语义和结构信息,提升事件检测和摘要的效果。本发明采用预训练的语言模型处理输入的文本,掌握文本的语义和结构信息,并结合后续的神经网络对文本进行聚类,检测话题中的事件,同时对事件进行摘要。本发明在事件检测任务上具有更好的精确率和召回率,同时摘要提升了事件内容的表示效果。
本发明包括如下步骤:
S1:对输入的社交媒体文本进行预处理,删除文本中不需要的信息并对文本进行分词。具体的子流程如下:
S11:输入的社交媒体文本集合记为D,D={d1,d2,…,d|D|},针对D中的每条文本获取对应的评论,得到的评论文本集合记为C,C={c1,c2,…,c|C|},共有|D|条社交媒体文本和|C|条评论文本,使用正则表达式删除文本中的短链接和@其他用户的无关信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010661898.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信号的波达方向确定方法及装置
- 下一篇:一种基于可解释的内部威胁评估方法