[发明专利]一种突发话题检测系统及方法在审
申请号: | 201911310430.2 | 申请日: | 2019-12-18 |
公开(公告)号: | CN110929174A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 陈泽勇;张治同;姚松;张莉 | 申请(专利权)人: | 成都迪普曼林信息技术有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610000 四川省成都市武侯区科华北路65*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 突发 话题 检测 系统 方法 | ||
本发明公开了一种突发话题检测系统及方法。该方法包括:文本数据输入,文本数据预处理,话题检测及话题突发性评估和突发话题检测结果输出。本发明能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的,并且支持中文、英文文档。
技术领域
本发明属于数据处理领域,尤其涉及一种突发话题检测系统及方法。
背景技术
当今计算机和网络技术技术发展十分迅速,互联网上有着许多的文本数据,例如微博的博文、各个新闻网站的文章等,这些文本数据中可能存在一些突发的话题。突发话题在互联网上的传播速度非常迅速,能够产生巨大的影响力,因此对突发话题进行检测是十分重要的。突发话题的检测是可以人工进行的,但是一方面工作量过于庞大,另一方面无法实时处理新的文本数据。
发明内容
本发明的目的在于,针对现有技术的不足,提出一种突发话题检测系统及方法,能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度。
一种突发话题检测方法,包括:
文本数据输入:读取需要进行突发话题检测的文本数据文件。
文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector或bert向量方式进行词嵌入。
话题检测及话题突发性评估,采用LAD模型算法进行话题检测;采用Kleinberg模型算法进行突发性评估。文本样本在完成LDA模型训练后,就可以得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。Kleinberg模型算法是在LDA模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。
突发话题检测结果输出,输出一批文本文档中排名前5的话题。
一种突发话题检测系统,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块和突发话题检测结果输出模块;文本数据输入模块用于读取需要进行突发话题检测的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;突发话题检测算法模块用于计算文本数据的突发性;突发话题检测结果输出模块用于突发话题检测结果输出。
文本数据预处理模块包括word2vector处理模块和Bert处理模块。
突发话题检测算法模块包括LAD算法模块和Kleinberg算法模块;LAD算法模块用于话题检测,Kleinberg算法模块用于突发性评估。
突发话题检测结果输出模块可以输出一批文本文档中排名前5的话题。
本系统还包括出错处理模块,用于显示出错信息,包括出错时间、出错等级、出错原因和出错地点。并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。
本发明的有益效果:能够从批量输入的中、英文新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的。
附图说明
图1是本发明方法流程图。
图2是web服务系统架构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
一种突发话题检测方法,包括:
文本数据输入:读取需要进行突发话题检测的文本数据文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都迪普曼林信息技术有限公司,未经成都迪普曼林信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911310430.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无晶振无线收发系统
- 下一篇:一种用于纺织机的线轮防卡顿装置