[发明专利]一种社区热点主题的挖掘方法、装置、介质及设备在审
申请号: | 202111516405.7 | 申请日: | 2021-12-10 |
公开(公告)号: | CN114330298A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 王璐 | 申请(专利权)人: | 武汉斗鱼鱼乐网络科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06Q50/00 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 姚萱萱 |
地址: | 430000 湖北省武汉市东湖新技术开发区软件园东路*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社区 热点 主题 挖掘 方法 装置 介质 设备 | ||
本发明提供一种社区热点主题的挖掘方法、装置、介质及设备,包括:确定社区帖子中的每个词语在预设时长内的第一热度值;对各词语的第一热度值进行热度修正,获得第二热度值;获取包含有第一目标词语与第二目标词语的第一语料数量,以及包含有第二目标词语的第二语料数量;基于第一语料数量及第二语料数量确定参考主题;基于参考主题中第一参考词语、第二参考词语的第二热度值以及包含有第一参考词语与第二参考词语的第三语料数量确定参考主题为热点主题;如此,在确定出每个词语的第一热度值后,继续对第一热度值进行修正,避免出现某个词语历史出现的次数与当前增长的次数都比较小时,被误认为是热点的情况;进而降低挖掘误差,提高准确度。
技术领域
本发明属于直播平台的社区热点技术领域,尤其涉及一种社区热点主题的挖掘方法、装置、介质及设备。
背景技术
社区是直播平台里非常重要的内容形式,用户可以在社区发帖和评论,讨论主播和游戏。为了对社区内容进行更好地运营,进一步提升社区活跃度,需要对社区目前用户讨论的热点话题进行挖掘。
相关技术中,一般常用的热点挖掘方法是统计帖子中词语的出现频率,将一些出现频率增长较大的从词语作为热点。但是如果一个词语历史出现的次数很少,但是当前增长的次数即使较小,也会使得词语的热度值很大,进而会被误认为是热点,这样明显会使挖掘热点主题的准确度不能得到确保。
发明内容
针对现有技术存在的问题,本发明实施例提供了一种社区热点主题的挖掘方法、装置、介质及设备,用于解决现有技术中在进行社区热点挖掘时,挖掘准确度得不到确保的技术问题。
本发明的第一方面,提供一种社区热点主题的挖掘方法,所述方法包括:
获取社区帖子中的多个词语,确定每个所述词语在预设时长内的第一热度值;
基于预设的修正策略对各所述词语的第一热度值进行热度修正,获得每个所述词语的第二热度值;
针对第一目标词语,获取包含有所述第一目标词语与第二目标词语的第一语料数量,以及获取包含有所述第二目标词语的第二语料数量;基于所述第一语料数量及所述第二语料数量确定参考主题;所述第一目标词语为所有词语中的任一词语,所述第二目标词语为除所述第一目标词语之外的剩余词语中的任一词语;
针对每个参考主题,确定所述参考主题中的第一参考词语及第二参考词语,基于所述第一参考词语、所述第二参考词语的第二热度值以及包含有所述第一参考词语与第二参考词语的第三语料数量确定所述参考主题为热点主题。
上述方案中,所述确定每个所述词语在预设时长内的第一热度值,包括:
根据公式确定所述词语的第一热度值S(wi);其中,所述wi为所述第一目标词语,所述i为词语序号,所述Tn为预设时长内的第n个时间段,所述n为预设时长包含的时间段的总数量,所述Tj为预设时长内的第j个时间段,所述j为任一时间段,j≤n;所述N(wi,Tn)为第一目标词语wi在第n个时间段Tn中出现的总次数,所述N(wi,Tj)为第一目标词语wi在第n个时间段Tn中出现的总次数。
上述方案中,所述基于预设的修正策略对各所述词语的第一热度值进行热度修正,获得每个所述词语的第二热度值,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼鱼乐网络科技有限公司,未经武汉斗鱼鱼乐网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111516405.7/2.html,转载请声明来源钻瓜专利网。