[发明专利]一种垃圾弹幕的识别方法、装置及计算机设备有效
申请号: | 201710506120.2 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107480123B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 龚灿;张文明;陈少杰 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/30;H04N21/475;H04N21/488 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
地址: | 430000 湖北省武汉市东湖开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种垃圾弹幕的识别方法、装置及计算机设备,方法包括:基于预设的弹幕信息特征构建规则,对弹幕信息进行特征提取,获取第一弹幕信息;根据所述直播平台自定义词库中的成词规则对所述第一弹幕信息进行切词,构成词袋模型;基于预设的映射规则,将所词袋模型转换为词向量;对所述词向量中的各词语进行TF‑IDF词频‑反文档频率加权,获取各词语的TF‑IDF加权值;建立朴素贝叶斯模型,基于各词语的TF‑IDF加权值,利用朴素贝叶斯模型分别计算在所有词语出现的情况下,弹幕信息为垃圾弹幕的第一概率P1、及弹幕信息为正常弹幕的第二概率P2;判断第一概率P1是否大于第二概率P2,若第一概率P1大于所述第二概率P2,则确定弹幕信息为垃圾弹幕。 | ||
搜索关键词: | 一种 垃圾 弹幕 识别 方法 装置 计算机 设备 | ||
【主权项】:
一种垃圾弹幕的识别方法,其特征在于,应用于直播平台中,所述方法包括:基于预设的弹幕信息特征构建规则,对所述弹幕信息进行特征提取,获取第一弹幕信息;对所述第一弹幕信息进行预处理,去除所述第一弹幕信息中对朴素贝叶斯模型识别有影响的数据;根据所述直播平台自定义词库中的成词规则对预处理后的所述第一弹幕信息进行切词,构成词袋模型;基于预设的映射规则,将所述词袋模型转换为词向量;对所述词向量中的各词语进行词频‑反文档频率TF‑IDF加权,获取所述各词语的TF‑IDF加权值;建立所述朴素贝叶斯模型,基于所述各词语的TF‑IDF加权值,利用所述朴素贝叶斯模型分别计算在所述词袋模型中所有词语出现的情况下,所述弹幕信息为垃圾弹幕的第一概率P1、及所述弹幕信息为正常弹幕的第二概率P2;判断所述第一概率P1是否大于所述第二概率P2,若所述第一概率P1大于所述第二概率P2,则确定所述弹幕信息为垃圾弹幕。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710506120.2/,转载请声明来源钻瓜专利网。