[发明专利]一种联合LW2V与Triplet网络的新闻主题事件检测方法有效
申请号: | 202010374303.5 | 申请日: | 2020-05-06 |
公开(公告)号: | CN111581967B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 饶元;樊笑冰;王硕;吴连伟 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/211;G06F40/216;G06F40/126;G06F18/22;G06N3/0464;G06N3/084 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 lw2v triplet 网络 新闻 主题 事件 检测 方法 | ||
本发明公开了一种联合LW2V与Triplet网络的新闻主题事件检测方法,本发明利用Triplet网络在样本有限的条件下无监督的实现新闻聚类,在网络中提取新闻标题添加主题信息,通过新闻标题和新闻正文的信息交互联合学习对主题信息进一步强化,克服了传统聚类技术在实现新闻主题聚类的缺点与不足。本发明使用Triplet网络作为新闻主题聚类的基础架构,可以在样本数量有限的条件下直接对样本进行比较实现模型的训练。该网络打破深度学习无法实现无监督过程的瓶颈。同时克服了深度学习在大量样本条件下对模型进行训练的先决条件。
【技术领域】
本发明属于电子信息技术领域,涉及一种联合LW2V与Triplet网络的新闻主题事件检测方法。
【背景技术】
随着网络技术日益发展、宽带运用逐渐推广以及国际网络化信息浪潮的推动,网络媒体如雨后春笋,在线新闻爆炸式的增长,每天都有很多人对网上发布的新闻感兴趣,例如:案件办理者比较关注其所负责案件的新闻报道,某股票持有者密切关注于该股票的相关新闻。但人们从互联网得到的新闻往往是海量的、无序且碎片化的,想要从中快速获取到某一个热点事件的完整新闻线索与演化过程则存在一定的困难。因此,一个有效的新闻主题事件检测以及演化挖掘方法具有巨大的商业价值和应用价值。具体而言,对于普通民众来说,快速获取感兴趣的主题事件可以节省时间成本,满足民众需求。对于企业经营者来说,掌握本企业相关的新闻并对其中的信息流进行分析,有利于企业把握企业定位,合理规划企业未来发展动向。对于政府公职人员来说,对新闻进行主题事件检测可以帮助政府了解舆论动向,为政策的制定提供科学依据。
目前,主题事件检测方法主要有基于传统的聚类,基于主题模型和基于深度学习。基于传统聚类算法进行事件检测就是以文本的相似性为基础,将有相似特征的文本聚集在一起。其目的是使得同一聚簇的文本相似度极可能大,而不同聚簇的文本差异尽可能大。但该方法只能学习数据的线性映射,无法充分表达复杂的文本信息。基于主题模型的事件检测也就是基于隐含狄利克雷分布进行事件检测。LDA它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题以及主题分布后,便可以根据主题以及主题分布进行主题聚类或文本分类。LDA为统计概率模型,无法体现词语的位置信息以及词语与上下文之间的关系。基于深度学习进行主题事件检测可以反映词语在文本的位置以及语义信息,并且将输入数据映射到更容易分离的特征空间,也可以学习数据的非线性映射,相较于传统的聚类算法或者主题模型可以将数据转换成更适合集群的表示形式。基于深度学习进行聚类主要有结合特征提取与聚类过程的算法和基于标签比较的深度聚类算法,这些算法往往需要大量的数据或者预训练好的模型,而Triplet网络可以在样本量较少的条件下通过直接比较样本进行模型的学习,很好的克服了上述问题。Triplet网络进行主题事件检测存在两个问题:Triplet网络输入的是一个候选样本X,同一主题的正样本x+,不同主题的负样本x-的三元组,三元组中的样本之间存在主题相关性,如何对主题信息未知的新闻数据构建三元组是需要考虑的首要问题。第二是利用Triplet网络进行文本特征提取时,一般的方法往往忽略了新闻标题可以反映新闻信息这一重要性;在对新闻正文进行特征抽取时,HAN利用注意力机制构建句子之间的相互影响来强调文本中的关键信息,新闻中的一些句子可能与新闻主题无关,只关注句子本身可能会给新闻的特征引入噪声。若对新闻进行主题信息标注则代价过大,使用LDA抽取主题信息来影响句子进行特征抽取则会引入无关词语从而弱化特征表示。这些问题在很大程度上会影响新闻主题聚类的准确性。
【发明内容】
本发明的目的在于解决现有技术中的问题,提供一种联合LW2V与Triplet网络的新闻主题事件检测方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种联合LW2V与Triplet网络的新闻主题事件检测方法,包括以下步骤:
阶段0:数据预处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010374303.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:交通轨迹流式大数据实时处理方法
- 下一篇:智能体间协同方法、装置及相关产品