[发明专利]一种标题热词自动计量方法、存储介质、电子设备及系统有效
申请号: | 201810737959.1 | 申请日: | 2018-07-06 |
公开(公告)号: | CN110750682B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 王璐;陈少杰;张文明 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/954 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 张凯 |
地址: | 430000 湖北省武汉市东湖开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标题 自动 计量 方法 存储 介质 电子设备 系统 | ||
本发明公开了一种标题热词自动计量方法、存储介质、电子设备及系统,涉及大数据领域领域,该方法包括获取各个直播间的标题,获取标题中的待计量热词。设置连续的时间周期,统计每一个时间周期内,所有待计量热词的出现次数。累加所有待计量热词的出现次数得到总出现次数,将每个周期的每个待计量热词的出现次数除以总出现次数,得到对应该时间周期的该待计量热词的占空比。根据每个所述时间周期内得到的待计量热词出现次数和占空比,使用预设的热度计量算法计算待计量热词的热度值,且所述占空比越高,待计量热词的热度越高。
技术领域
本发明涉及大数据领域领域,具体涉及一种标题热词自动计量方法、存储介质、电子设备及系统。
背景技术
视频标题是视频内容的直接反映,而视频标题中的某些关键词语通常具有非常重要的意义。如果能对视频标题词语热度度量进行统计,那么就可以随时了解平台上的用户当前对哪些内容比较感兴趣,该结果能够帮助直播平台在推荐和搜索中给用户提供更好的帮助。
通常度量词语热度的方法是统计当前该词语出现的次数,次数越高热度越大。这样做的问题在于高频词和热门词之间存在概念上的差异,高频词因为其泛用性每天出现的次数都很多,但不见得这些高频次就是当前的热门词。为了解决该问题,亟需一种区分热门词和高频词的办法。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种标题热词自动计量方法、存储介质、电子设备及系统,能够通过计算词语的热度值判断词语是否是热刺。
第一方面,本发明实施例提一种标题热词自动计量方法,其包括:
获取各个直播间的标题,获取标题中的待计量热词;
设置连续的时间周期,统计每一个时间周期内,所有待计量热词的出现次数,所述出现次数包括被查看次数、搜索次数、使用次数或点击次数;
累加所有待计量热词的出现次数得到总出现次数,将每个周期的每个待计量热词的出现次数除以总出现次数,得到对应该时间周期的该待计量热词的占空比;
根据每个所述时间周期内得到的待计量热词出现次数和占空比,使用预设的热度计量算法计算待计量热词的热度值,且所述占空比越高,待计量热词的热度越高。
优选的,所述预设的热度值计量算法包括以下步骤:
根据每个时间周期内待计量热词的出现次数和待计量热词总数,获得每个时间周期内待计量热词出现的平均次数;
累加每个时间周期内的平均次数,得到总平均次数,将每个周期的平均出现次数处于总平均次数得到平均占空比;
选定一个待计量热词,将该待计量热词在最晚时间周期出现的次数和占空比相乘得到第一乘积,将最晚时间周期的平均次数和平均占空比相乘得到第二乘积,获取第一乘积与第二乘积的和,并用该和除以该待计量热词在最晚时间周期出现的次数与最晚时间周期对应的平均次数的和,得到热度值。
优选的,其具体公式为:
其中,所述H0(i)为词语i在最晚的时间周期内的热度值,W0(i)为词语i在最晚的时间段内的出现次数,W0为最晚时间的周期内待计量热词出现的平均次数,P0(i)为词语i在最晚的时间周期的占空比,P0为最晚的时间周期内待计量热词出现的平均占空比。
优选的,所述设置连续的时间周期,统计每一个时间周期内,所有待计量热词的出现次数,还包括以下步骤:每次统计一个时间周期,对之前的时间周期进行衰减。
优选的,所述衰减为线性衰减。
优选的,所述线性衰减的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810737959.1/2.html,转载请声明来源钻瓜专利网。