[发明专利]一种热门话题更新方法、装置和计算机存储介质有效
申请号: | 201910722947.6 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110472013B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 罗佳;王晓斌;杜蕾;黄三伟 | 申请(专利权)人: | 湖南蚁坊软件股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338;G06F16/955;G06F40/211 |
代理公司: | 长沙心智力知识产权代理事务所(普通合伙) 43233 | 代理人: | 谢如意 |
地址: | 410013 湖南省长沙市高新开发*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热门话题 更新 方法 装置 计算机 存储 介质 | ||
本发明公开了一种热门话题更新方法,所述方法包括:采集流量数据,并确定与所采集的流量数据对应的时间窗口;从所述时间窗口的流量数据中提取多个候选话题;计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。本发明还同时公开了热门话题更新装置和计算机存储介质。
技术领域
本发明涉及热门话题的更新领域,尤其涉及一种热门话题更新方法、装置和计算机存储介质。
背景技术
随着互联网尤其是移动互联网的飞速发展,人们可以随时随地在互联网上发表自己的见闻和看法,互联网信息量巨大。
目前,对热门话题发现、热门话题提取的相关研究和技术方法已经很多(例如:CN103678670B,CN104008106B等),基本是基于分词和文本聚类的方法实现,这些方法存在较多问题。而实际情况中,对于话题标签,即话题的描述语句,大多通过词的组合或文章的标题来表示,词的组合方法所构成的话题标签往往不够通顺,而用文章的标题的方法。
因此,现有技术中对于没有标题或者标题与文章内容不符的情况则无法进行处理,且这些方法大多仅能够离线进行分析,对于海量数据而言,分析时间较长,无法满足实时性的要求。
发明内容
有鉴于此,本发明的主要目的在于提供一种热门话题更新方法、装置和计算机存储介质,旨在解决现有技术中热门话题更新不够实时和准确的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种热门话题更新方法,所述方法包括:采集流量数据,并确定与所采集的流量数据对应的时间窗口;从所述时间窗口的流量数据中提取多个候选话题;计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并;根据合并后候选话题标签和流量数据,获得与所述时间窗口对应的热门话题和热门话题排行。
上述方案中,,采集预设时间窗口的实时数据流量;
判断预设时间窗口内所采集的数据量是否不大于预设量值;
如果是,则将该预设时间窗口确定为时间窗口;
否则,获取数据量达到预设量值的时间,并将所获取的时间作为作为终止时间,获得时间窗口
上述方案中,还包括:根据历史时间窗口内的热门话题排名列表和所述热门话题排行,合并不同时间窗口间的相似话题并更新话题的热度值;根据热度值更新,并得到预设时间范围内的热门话题排名列表。
上述方案中,所述从所述时间窗口的流量数据中提取多个候选话题的步骤,包括:
根据所述流量数据的对应的统一资源定位符,删除统一资源定位符相同的重复数据,得到去重数据;计算数据内容的相似性,根据所计算的相似性获取并归并所述去重数据中的相似数据;基于自然语言处理技术,从合并后的相似数据中提取多个短句作为候选话题标签。
上述方案中,所述计算所述多个候选话题标签的相似性,并根据相似性对所述多个候选话题标签进行合并的步骤,包括:计算所述多个候选话题标签的相似度值;获取大于预设阈值的候选话题标签;对所获取的候选话题标签进行合并。
上述方案中,所述采集流量数据,并确定与所采集的流量数据对应的时间窗口的步骤,包括:采集预设时间窗口的实时数据流量;判断预设时间窗口内所采集的数据量是否不大于预设量值;如果是,则将该预设时间窗口确定为时间窗口;否则,获取数据量达到预设量值的时间,并将所获取的时间作为作为终止时间,获得时间窗口。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南蚁坊软件股份有限公司,未经湖南蚁坊软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910722947.6/2.html,转载请声明来源钻瓜专利网。