[发明专利]直播主题样本提取方法、存储介质、电子设备及系统有效
申请号: | 201710515717.3 | 申请日: | 2017-06-29 |
公开(公告)号: | CN109213841B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 龚灿;陈少杰;张文明 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/216;G06F40/279;G06F40/284 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 沈林华 |
地址: | 430000 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种直播主题样本提取方法、存储介质、电子设备及系统,涉及直播弹幕过滤领域。该方法的步骤为:获取指定周期内直播对象的文字数据信息;设置在文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库;在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数后形成文字数据对象的直播样本向量;将所有直播样本向量相加,得到直播主题样本向量并进行加权计算得到加权值。本发明提取直播主题样本时,能够显著减小运营成本,大幅度提高工作效率和工作精度;还能够为后续直播主题样本的统计、识别和其他处理提供有力的支持。 | ||
搜索关键词: | 直播 主题 样本 提取 方法 存储 介质 电子设备 系统 | ||
【主权项】:
1.一种直播主题样本提取方法,其特征在于,该方法包括以下步骤:S1:服务端获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,转到S2;S2:服务端设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,转到S3;S3:服务端在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,转到S4;S4:服务端将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据A进行加权计算,得到加权值X,计算公式为X=TF·IDF,TF代表A对应的直播主题样本的词频,TF=A/C,C代表在S1中的所有文字信息中,每个直播主题样本对应的出现次数之和;IDF=log(W1/W2),W1代表出现过A对应的直播主题样本的文字数据对象的数量,W2代表S1中的所有文字数据对象的数量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710515717.3/,转载请声明来源钻瓜专利网。