[发明专利]热点事件挖掘方法、装置及服务器在审
申请号: | 202011320781.4 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112380339A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 季鸫;陈佩宜;赖相宇 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/258;G06F40/289 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点 事件 挖掘 方法 装置 服务器 | ||
本公开关于一种热点事件挖掘方法、装置及服务器,该方法包括:获取内容资源的标题信息中的多个热点词;在多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括多个热点词中出现在同一标题信息中的至少两个热点词;在至少一个热点词组合中确定第一热点词组合,并基于第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,第二热点词组合为至少一个热点词组合中除第一热点词组合之外的热点词组合。这样可以提高热点事件的挖掘结果的准确度。
技术领域
本公开实施例涉及数字挖掘技术领域,尤其涉及一种热点事件挖掘方法、装置及服务器。
背景技术
随着技术的发展,一些网络平台由于受众庞大,每日会产生大量的内容,并伴随着大量的观看量、评论量,并形成一个规模庞大的网络社区。如果出现重大热点事件,舆论影响将通过网络社区迅速放大,且如果事件舆论中包含较大的负面情绪,将会对社会造成不良影响。因此,实时监控信息流热点事件,有助于在舆论造成不良影响前及早发现、预防问题发生。
目前,一般是通过文档主题生成模型(Latent Dirichlet Allocation,简称LDA)进行主题词提取,并将最近一段时间内出现频次突增的主题词作为热点主题词。然而基于LDA话题提取方案的输出结果为主题词,而在实际舆情监控过程中,仅仅根据主题词是不足以让监控人员有效了解舆情事件。
可见,相关技术中的热点事件的挖掘结果存在准确度低的问题。
发明内容
本公开提供一种热点事件挖掘方法、装置及电子设备,以至少解决相关技术中的热点事件的挖掘结果存在准确度低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种热点事件挖掘方法,包括:
获取内容资源的标题信息中的多个热点词;
在所述多个热点词中确定至少一个热点词组合;其中,每个热点词组合包括所述多个热点词中出现在同一标题信息中的至少两个热点词;
在所述至少一个热点词组合中确定第一热点词组合,并基于所述第一热点词组合包括的至少两个第一热点词,得到用于表示热点事件的标题摘要信息;其中,所述至少两个第一热点词在标题信息中同时出现的次数高于第二热点词组合中至少两个第二热点词在标题信息中同时出现的次数,所述第二热点词组合为所述至少一个热点词组合中除所述第一热点词组合之外的热点词组合。
可选的,所述获取内容资源的标题信息中的多个热点词获取预设时长内平台发布的内容资源的标题信息中的多个热点词的步骤,包括:
获取预设时长内平台发布的内容资源的标题信息;
基于分词库对所述标题信息进行切分,以得到多个候选词;
从所述多个候选词中确定多个热点词。
可选的,所述基于分词库对所述标题信息进行切分,以得到多个候选词的步骤之后,所述方法还包括:
在所述多个候选词中包括包含至少两个字符的目标候选词的情况下,获取所述目标候选词的所述至少两个字符之间的关联关系;
在所述关联关系满足在所述分词库中添加分词的预设条件的情况下,将所述目标候选词添加至所述分词库中,并更新所述分词库。
可选的,所述获取所述目标候选词的所述至少两个字符之间的关联关系的步骤,包括:
获取所述目标候选词的所述至少两个字符之间的关联度信息;
获取所述目标候选词的所述至少两个字符之间的平均互信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011320781.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:波轮洗衣机用减振装置
- 下一篇:一种机器人抓取装置