[发明专利]一种基于主题模型的舆情新闻事件跟踪方法有效
申请号: | 202010141439.1 | 申请日: | 2020-03-04 |
公开(公告)号: | CN112115327B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 马子娟;岳昆;段亮;吴鑫然;李维华;赵天资 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F40/289;G06F40/242;G06F40/216;G06Q50/00 |
代理公司: | 云南凌云律师事务所 53207 | 代理人: | 董建国 |
地址: | 650500 云南省昆明市*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 舆情 新闻 事件 跟踪 方法 | ||
本发明公开了一种基于主题模型的舆情新闻事件跟踪方法。针对舆情新闻的稀疏性、时序性、易演化性等特点,给出了一种舆情主题模型MBTM(Minority Biterm Topic Model)的构建方法,然后利用MBTM对舆情新闻数据进行建模、推断隐含主题,进一步设置时间节点,在每个时间节点上对主题‑词分布进行采样,获取对应主题中的词项,再利用JS散度和主题强度两个指标挖掘主题演化轨迹,完成对特定舆情新闻事件的在线跟踪。本发明在构建MBTM的过程中,使用了一种基于随机更新思想的近似推断方法来更新参数,从而能够精确、高效的实现舆情新闻事件追踪,也为特定领域新闻事件跟踪技术提供参考。
技术领域
本发明公开了一种基于主题模型的舆情新闻事件跟踪方法,涉及基于主题模型对舆情新闻事件进行隐含主题推断,以及利用JS散度和主题强度进行舆情新闻主题演化轨迹挖掘,实现舆情新闻事件跟踪的方法,属于知识发现领域。
背景技术
新闻主题检测与跟踪技术是信息处理领域中备受关注的研究热点,其任务是在事件发展初期将新闻媒体信息流作为研究对象,通过监控新闻描述的主题,发现新闻潜在信息并跟踪下去,最后将涉及某个主题的新闻组织起来以新闻线索的方式呈现给用户。随着社交媒体的快速发展,在社交媒体文本内容中利用主题模型进行主题演化跟踪,成为近年来研究的热点,该领域的研究有助于跟踪主题的发展趋势,对突发事件应急监测等实际应用都有重要的指导作用。已有许多公知的新闻主题跟踪方法,例如:庄锅冕等(专利CN106599181B,2019)将LDA主题模型应用在新闻热点检测中;李心舒等(北京邮电大学硕士论文,2019)结合新闻热点主题特点和大数据处理平台优势,设计并实现了基于Spark的多领域网络新闻热点挖掘系统,有效提升了新闻热点挖掘与跟踪的性能;车蕾(国防科技大学学报,2017)提出基于多特征融合文本聚类的新闻主题发现模型。这些方法针对一般新闻数据源能完成新闻主题跟踪任务。但针对特定领域的新闻数据,仍需要提供相应的新闻事件跟踪方法。
随着我国文化战略的深入推进和新媒体的不断发展,围绕舆情新闻获取、分析与利用的研究不断增多。例如:赵倩等(中央民族大学硕士论文,2016)在藏汉可比语料的基础上构建LDA主题模型,对样本新闻文本的主题进行推断,实现对特定新闻事件相关主题的热度及趋势发展的跟踪;高璐等(中央民族大学硕士论文,2017)利用LDA对源语言或者目标语言文档进行独立主体建模,从而进行藏汉跨语言信息检索的查询扩展;孙媛等(中文信息学报,2017)利用词向量对文本进行语义扩展,进而构建LDA主题模型抽取出藏语和汉语主题,并提出基于4种相似度算法的投票方法来实现藏汉主题的对齐。这些方法对于部分舆情语言文字新闻的舆情监控研究具有一定的参考价值,但是需要对舆情新闻事件进行实时跟踪,才能观察舆情发酵的经过、跟踪事件焦点的演化、分析舆情的脉络。与一般新闻相比,舆情新闻的稀疏性、时序性、易演化性等特点,使得舆情新闻事件跟踪的难度相对较大。
因此,本发明针对舆情新闻事件的特点,以舆情新闻数据和主题模型为基础,以从舆情新闻在线数据流中跟踪事件为目标,给出了一种舆情主题模型MBTM的构建方法,利用MBTM对舆情新闻数据进行建模,进一步设置时间节点,在每个时间节点上对主题-词分布进行采样,获取对应主题中的词项,再利用JS散度和主题强度两个指标挖掘主题演化轨迹,完成对特定舆情新闻事件的在线跟踪。
综上,本发明给出一种基于主题模型的舆情新闻事件跟踪方法,能够更精确和高效地从舆情新闻数据中跟踪事件演化轨迹,也为特定领域新闻事件跟踪提供参考。
发明内容
一、本发明的目的
为解决公知的新闻主题检测与跟踪技术没有考虑舆情新闻特点,不能有效跟踪舆情新闻事件等不足,本发明针对舆情新闻的稀疏性、时序性、易演化性等特点,给出了一种舆情主题模型MBTM的构造方法,通过该模型对舆情新闻数据的隐含主题进行推断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010141439.1/2.html,转载请声明来源钻瓜专利网。