[发明专利]一种基于历史新闻报道的事件趋势预测方法有效
申请号: | 202011607205.8 | 申请日: | 2020-12-30 |
公开(公告)号: | CN113159363B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 冯翱;宋馨宇;张学磊;王维宽;张举;蔡佳志;赵韦程;吴锡 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06F16/951;G06F16/906;G06F16/955;G06F40/289;G06K9/62 |
代理公司: | 成都智涌知识产权代理事务所(普通合伙) 51313 | 代理人: | 张洪 |
地址: | 610200 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 历史 新闻报道 事件 趋势 预测 方法 | ||
本发明涉及一种基于历史新闻报道的事件趋势预测方法,首先确定待预测新事件领域,基于公开数据集或网络采集的数据获取同类事件;在每个同类事件内部,将描述同一具体事件的新闻聚类为一个子事件,根据事件内容的关联性和时间先后顺序,获得每个子事件后续事件分布信息;计算同类事件和待预测新事件的相似度获得相似事件;再在相似事件内部通过计算相似度得到当前子事件和相似事件中的子事件的相似度,根据前述两个相似度和事件分布信息,对当前子事件的发展趋势进行预测,本发明方法避免了人工趋势预测的主观性和随意性,能够全面且量化地给出未来事件发展的各种可能,有利于相关人员进行不确定场景下的分析和预测。
技术领域
本发明涉及网络技术领域,尤其涉及一种基于历史新闻报道的事件趋势预测方法。
背景技术
随着互联网的发展,大量新闻采用网络文本的方式进行报道,对于网络新闻进行有效率的挖掘是经济和社会发展的重要需求,其中对于某个新闻事件的未来走向进行预测是一个重要而又有很大难度的问题,具有巨大的经济和社会价值。现有的方法通常是由领域专家根据自己的经验进行推断,预测后续事件的发展,但由于每个人背景的不同和观点的不一致,预测结果经常会有较大差异,准确率也不能得到保证。
人类对于事件发展的预测通常是基于个人知识积累和历史事件的记录,采用算法模型进行预测通常也采用类似的思路,基于历史上类似事件的后续发展来预测当前事件的走向。
现有的趋势预测方法还是以领域专家的主观判断为主,缺少系统性的算法和模型支持,其不足是领域专家不唯一,且根据各自的背景、立场和倾向很可能做出不同的判断,无法给出较可靠的一致意见。对于事件的后续预测征询领域专家的意见,以专家的判断为准,缺少系统性的算法和模型支持。
但这里存在几个关键性的问题。一是没有两个事件是完全相同的,判断哪些历史事件是相似的,本身就存在较大的模糊性,而差异较大的事件又未必对于当前事件有参考价值;二是一个事件的走向具有一定的不确定性,多种可能的后续随着外部影响因素的变化又会导致不同结果,缺乏系统性的预测模型。
有研究从历史事件中寻找与当前事件的所处领域、时间地点、内容和当前发展几乎一致的场景,用该事件的后续走向来判断当前事件的未来发展。但很难找到和当前事件各方面因素都很一致的历史事件,导致无法使用历史信息进行判断。
因此,在大量历史事件积累的前提下,如何降低事件趋势预测的主观性,达到较高的准确率,在舆情分析领域显得尤为重要。
发明内容
针对现有技术之不足,本发明提出一种基于历史新闻报道的事件趋势预测方法,所述方法包括:
步骤1:首先确定待预测事件领域,在指定领域中,下载现有的公开新闻文本数据集和标签信息,若无公开数据集,则使用网络爬虫下载特定新闻网站的领域新闻。
步骤2:,当网络爬虫下载的数据集无标注信息时,需要通过人工标注加新闻分类/聚类的方法完成主要事件的标注;
步骤3:同类事件计算,在已完成主要事件标注的新闻中,使用设定的相似度阈值,在排除关键性3W信息后进行相似度计算,找到相似性事件,通过人工验证后将其标注为同类事件;
步骤4:子事件聚类,在每个同类事件内部,以关键性3W信息为主计算每两条新闻之间的相似度,将描述同一具体事件的新闻聚类为一个子事件;
步骤5:对步骤4得到的子事件之间,采用半人工标注的方式,根据事件内容的关联性和时间先后顺序,建立子事件之间的上下文联系,用有向边表示,从归因事件指向后续事件,获得每个子事件后续事件分布信息;
步骤6:对于待预测的新事件,获取核心的描述新闻,或者从公开信息源采集与所述待预测新事件相关的新闻报道,并对没有标注信息的新闻报道进行标注。具体方法为从待预测新事件中提取关键词,再根据提取的关键词在公开信息源中爬取搜索结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011607205.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:桥式检测器
- 下一篇:一种含小苏打与珍珠岩的无水美白牙膏
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理