[发明专利]一种社区热点主题的挖掘方法、装置、介质及设备在审
申请号: | 202111516405.7 | 申请日: | 2021-12-10 |
公开(公告)号: | CN114330298A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 王璐 | 申请(专利权)人: | 武汉斗鱼鱼乐网络科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06Q50/00 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 姚萱萱 |
地址: | 430000 湖北省武汉市东湖新技术开发区软件园东路*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社区 热点 主题 挖掘 方法 装置 介质 设备 | ||
1.一种社区热点主题的挖掘方法,其特征在于,所述方法包括:
获取社区帖子中的多个词语,确定每个所述词语在预设时长内的第一热度值;
基于预设的修正策略对各所述词语的第一热度值进行热度修正,获得每个所述词语的第二热度值;
针对第一目标词语,获取包含有所述第一目标词语与第二目标词语的第一语料数量,以及获取包含有所述第二目标词语的第二语料数量;基于所述第一语料数量及所述第二语料数量确定参考主题;所述第一目标词语为所有词语中的任一词语,所述第二目标词语为除所述第一目标词语之外的剩余词语中的任一词语;
针对每个参考主题,确定所述参考主题中的第一参考词语及第二参考词语,基于所述第一参考词语、所述第二参考词语的第二热度值以及包含有所述第一参考词语与第二参考词语的第三语料数量确定所述参考主题为热点主题。
2.如权利要求1所述的方法,其特征在于,所述确定每个所述词语在预设时长内的第一热度值,包括:
根据公式确定所述词语的第一热度值S(wi);其中,所述wi为所述第一目标词语,所述i为词语序号,所述Tn为预设时长内的第n个时间段,所述n为预设时长包含的时间段的总数量,所述Tj为预设时长内的第j个时间段,所述j为任一时间段,j≤n;所述N(wi,Tn)为第一目标词语wi在第n个时间段Tn中出现的总次数,所述N(wi,Tj)为第一目标词语wi在第n个时间段Tn中出现的总次数。
3.如权利要求1所述的方法,其特征在于,所述基于预设的修正策略对各所述词语的第一热度值进行热度修正,获得每个所述词语的第二热度值,包括:
基于公式确定每个所述第一目标词语wi的第二热度值F(wi);其中,所述wi为所述第一目标词语,所述i为词语序号,所述m为词语的总数量,所述Tn为预设时长内的第n个时间段,所述n为预设时长包含的时间段的总数量,所述Xn为所述第一目标词语在第n个时间段内出现的次数,所述S(wi)为第一热度值,所述N(wi,Tn)为第一目标词语wi在第n个时间段Tn中出现的总次数。
4.如权利要求1所述的方法,其特征在于,所述基于所述第一语料数量及所述第二语料数量确定参考主题,包括:
根据公式确定所述第一目标词语的主题能力表达值H(wi);
若确定所述主题能力表达值大于预设的主题表达阈值,则将所述第一目标词语及所述第二目标词语形成的主题确定为所述参考主题;其中,
所述wi为所述第一目标词语,所述wh为所述第二目标词语,所述i和h为词语序号,所述i和h的值不同;所述m为词语的总数量,所述C(wi,wh)为包含有所述第一目标词语与所述第二目标词语的第一语料数量,所述C(wi)为包含有所述第二目标词语的第二语料数量,所述语料为社区帖子中的正文或者评论。
5.如权利要求1所述的方法,其特征在于,所述基于所述第一参考词语、所述第二参考词语的第二热度值以及包含有所述第一参考词语与第二参考词语的第三语料数量确定所述参考主题为热点主题,包括:
基于所述第一参考词语的第二热度值、所述第二参考词语的第二热度值以及包含有所述第一参考词语与第二参考词语的第三语料数量确定所述参考主题的热度值;
若确定所述热度值大于预设的热度阈值,则确定所述参考主题为热点主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼鱼乐网络科技有限公司,未经武汉斗鱼鱼乐网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111516405.7/1.html,转载请声明来源钻瓜专利网。