[发明专利]热点事件发现方法、装置、计算机设备和存储介质有效
申请号: | 201811246478.7 | 申请日: | 2018-10-24 |
公开(公告)号: | CN109460500B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 林全智 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄晓庆;何平 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点 事件 发现 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及热点事件发现方法、装置、计算机设备和存储介质,获取待处理网页的关键词向量,待处理网页包括网页地址数据流中的待处理地址对应的网页;根据已处理网页的关键词向量与待处理网页的关键词向量,确定候选网页,候选网页包括与待处理网页存在相似性的已处理网页;根据待处理网页与候选网页的相似度,确定待处理网页的事件;当事件中的网页满足数量条件时,根据事件确定发现结果。如此,可以大幅度降低需要处理的候选网页的数量,大幅度降低相似度计算的数据量,从而,提高热点事件发现的及时性。
技术领域
本申请涉及数据挖掘技术领域,特别是涉及一种热点事件发现方法、装置、计算机设备和存储介质。
背景技术
随着互联网的持续发展,人们的日常生活越来越被互联网所影响,在网上看新闻、购物、互相交流等越来越普遍。比如,当社会上有热点事件发生时,人们总会第一时间在网络上传播和讨论,因此,互联网热点事件的监控变得越来越重要,通过热点事件的监控,政府部门能及早发现突发性事件,从而采取合理的行动,而企业也能通过热点时间的监控发现自己感兴趣的内容,进而制定合乎自己发展的措施。
传统的热点事件发现方法,每隔一段时间,对采集到的网页文本进行预处理,利用TF_IDF算法将网页文本表示成特征向量,利用聚类算法,将相似的网页聚类到一起,每个类别代表一个事件,最后再从这些事件中,过滤出热点事件。
因此,传统的热点事件发现方法,存在及时性较差的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高及时性的热点事件发现方法、装置、计算机设备和存储介质。
一种热点事件发现方法,所述方法包括:
获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
一种热点事件发现装置,所述装置包括:
关键向量获取模块,用于获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
候选网页确定模块,用于根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
事件确定模块,用于根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
发现结果确定模块,用于当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811246478.7/2.html,转载请声明来源钻瓜专利网。