[发明专利]一种基于网络媒体的热门事件提取方法有效
申请号: | 201710882339.2 | 申请日: | 2017-09-26 |
公开(公告)号: | CN107644089B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 沈满;吴杰;杨曦;陈彬;段春先;谢倩 | 申请(专利权)人: | 武大吉奥信息技术有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458;G06F16/35;G06F16/9535;G06F40/258 |
代理公司: | 北京双收知识产权代理有限公司 11241 | 代理人: | 曾晓芒 |
地址: | 430223 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明适用于信息挖掘技术领域,提供一种基于网络媒体的热门事件提取方法,首先将新闻、评论文本发布的时间区间划分为若干个等间隔的时间片。其次,在每个时间片内提取新闻文本的关键词及权重,用优化增量聚类方法对这些新闻文本进行聚合分类,得到该时间片内的每个话题及其空间向量模型,并根据模型计算话题热度,按照热度保留有效话题。第三,对所有的时间片的话题再用优化增量聚类方法进行聚合分类,得到不同的事件,计算事件热度。最后,判断事件是否热门,并通过热度对热门的事件排序。本发明改进了普通的增量聚类算法,并建立多级的优化增量聚类模型,提高了计算速度;并且根据媒体的关注情况和网民的舆论情况计算事件的热度,并判断事件是否热门,对热门的事件排名,此方法更客观,减少了事件排名的误差。 | ||
搜索关键词: | 一种 基于 网络媒体 热门 事件 提取 方法 | ||
【主权项】:
一种基于网络媒体的热门事件提取方法,其特征在于,所述方法包括下述步骤:S1、获取一时间段内的新闻文本和评论文本数据,将所述时间段等分成多个时间片,并且每个时间片对应设置一个话题集合,所述话题集合初始状态为空;S2、针对每个时间片,提取当前时间片内发布的每篇新闻文本的若干关键词及权重;S3、对当前时间片内的新闻文本结合关键词和权重进行聚合分类得到各个话题,同时将各个话题存入当前时间片对应的话题集合;S4、计算话题集合中的每个话题的最热时间和热度并进行筛选,保留有效话题;S5、根据所有话题集合中的所有话题进行聚合分类抽取事件;S6、计算每个事件的热度;S7、判断是否是热门事件;S8、保留热门事件,按照热门事件的热度由大到小排列,展示出热门事件的热门程度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武大吉奥信息技术有限公司,未经武大吉奥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710882339.2/,转载请声明来源钻瓜专利网。