[发明专利]事件追踪与变化阶段划分方法、系统及相关设备在审
申请号: | 201811014739.2 | 申请日: | 2018-08-31 |
公开(公告)号: | CN109325524A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 曾大军;郑晓龙;何赛克;张曈;王乾宇 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/04 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库;陈晓鹏 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 变化阶段 极大值点 事件追踪 追踪 信息量 绘制 机器学习领域 等时间间隔 时间复杂度 随时间变化 计算效率 新闻传播 新闻数据 包络线 分割点 采样 平滑 聚类 算法 预设 发布 数据库 集合 采集 查找 话题 | ||
1.一种事件追踪与变化阶段划分方法,其特征在于,包括以下步骤:
从多个不同的新闻传播通道中采集新闻数据并存入数据库中;
对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间;
以所述起始发布时间为起点,根据所述数据库中的新闻数据绘制所述待追踪事件在单位时间内的信息量随时间变化的曲线;在所述曲线上进行等时间间隔采样,绘制出平滑后的演化包络线;
求出所述演化包络线上的极大值点的个数,进而计算出变化阶段的个数;
在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点;
在所述演化包络线上每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。
2.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,所述数据库包括:一个汇总数据库和/或与各新闻传播通道一一对应的通道数据库;
相应地,
“从多个不同的新闻传播通道中采集新闻数据并存入数据库中”的步骤具体包括:从多个预先确定的所述新闻传播通道中采集新闻数据,并存入所述汇总数据库中;和/或
将采集的所述新闻数据,依据采集通道的不同分别存入对应的所述通道数据库中;
“对所述数据库中的所述新闻数据进行话题聚类”,包括:对所述汇总数据库中的话题进行聚类,或对某一个指定新闻通道所对应的通道数据库中的话题进行聚类。
3.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,“对所述数据库中的所述新闻数据进行话题聚类,根据不同话题生成相应新闻集合,进而选择待追踪事件对应的新闻集合,并查找出所述待追踪事件的起始发布时间”的步骤具体包括:
从所述数据库中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为一个新闻集合;
从所述数据库中剩下的新闻数据中选取第一条新闻数据,通过聚类找到所述数据库中与该新闻数据具有相同话题的新闻数据,作为另一个新闻集合;
重复执行,直到无法聚类出新的新闻集合,通过极值点去重的方式删除不需要的集合;
选择待追踪事件对应的新闻集合,并查找出其中发布时间最早的新闻数据;将该新闻数据的发布时间,作为所述待追踪事件的起始发布时间。
4.根据权利要求1所述的事件追踪与变化阶段划分方法,其特征在于,“在所述演化包络线上,分别将每个变化阶段等间隔地划分为预设数量的时间段,并计算每个时间段中产生的信息量,进而计算出极大值点和极小值点”的步骤具体包括:
在所述演化包络线上,分别将每个变化阶段等间隔地划分为n个时间段,并计算出每个时间段中产生的信息量ski;
将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极大值点:
将满足下式的ski值对应时间段的中间值在所述演化包络线上的点作为极小值点:
其中,ski为第k个变化阶段中第i个时间段所产生的信息量,k=1,2,...,K,i=1,2,...,n;K为事件变化阶段的个数;n为所述预设数量;τA为预设的第一阈值;τB为预设的第二阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811014739.2/1.html,转载请声明来源钻瓜专利网。