[发明专利]目标弹幕的识别方法、装置、终端及存储介质有效
申请号: | 201810320766.6 | 申请日: | 2018-04-11 |
公开(公告)号: | CN108537176B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 刘兵;张文明;陈少杰 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;H04N21/4788;H04N21/435 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 430070 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 弹幕 识别 方法 装置 终端 存储 介质 | ||
本发明公开了一种目标弹幕的识别方法、装置、终端及存储介质。其中,目标弹幕的识别方法包括:获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码;根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;根据识别结果确定所述目标弹幕的类型。本发明实施例的技术方案,能够基于目标弹幕的词性对目标弹幕进行识别,解决了现有技术中目标弹幕识别不准确的技术问题,结合目标弹幕的结构特点进行识别,有效提高了弹幕识别的准确性。
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种目标弹幕的识别方法、装置、终端及存储介质。
背景技术
目前,直播行业由于其具有多样化、个性化以及即时性等特点已经受到越来越多的用户青睐。为了便于交流,用户在观看直播视频时,还经常会通过发送弹幕以达到和主播、观众互动的目的。但也存在部分用户会发送一些垃圾弹幕,例如广告弹幕、涉政弹幕等。而这部分弹幕,对于直播平台来说极其影响用户体验,需要及时识别并拦截。
当前弹幕识别主要是对文本内容进行切分并抽取相关特征,进而利用这些特征对弹幕进行判断。但是,采用该方案会存在如下问题:当中文文本内容过多时,若抽取中文文本的部分特征,则无法覆盖所有的中文词汇,有可能导致目标弹幕识别不准确;2、广告弹幕会穿插一些其他符号等,从而导致仅仅根据部分内容无法识别出是不是目标弹幕。
发明内容
本发明实施例提供了一种目标弹幕的识别方法、装置、终端及存储介质,以解决弹幕识别准确率低的问题,实现快速精准识别出目标弹幕的技术效果。
第一方面,本发明实施例提供了一种目标弹幕的识别方法,该方法包括:
获取待识别的目标弹幕,并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码;
根据编码后的所述目标弹幕生成预设格式的特征向量,并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别;
根据识别结果确定所述目标弹幕的类型。
进一步地,所述基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码,包括:
基于预先建立的词性字典确定所述目标弹幕中各字符的词性,并根据所述词性对所述目标弹幕进行编码。
进一步地,所述根据编码后的所述目标弹幕生成预设格式的特征向量,包括:
基于N-gram将编码后的所述目标弹幕进行分词,根据预设的转化规则分词后的各个字符转化为预设格式的特征向量。
进一步地,所述的方法还包括:
获取所述弹幕样本,并基于根据所述弹幕样本中各字符的词性对所述弹幕样本进行编码;
根据编码后的所述弹幕样本生成预设格式的特征向量,并将所述特征向量输入至待训练的分类模型中得到当前输出结果;
根据当期输出结果和期望输出结果之间的误差,调节所述分类模型的模型参数。
进一步地,所述获取所述弹幕样本包括:
获取历史弹幕样本以及与所述历史弹幕样本对应的标记,确定所述历史弹幕样本中的正常弹幕样本和异常弹幕样本。
进一步地,所述根据所述词性对所述目标弹幕进行编码,包括:
当检测到所述词性字典中不存在与所述字符对应的词性时,将预设字符的词性标记为预设词性;
根据所述预设词性更新所述词性字典,并根据更新后的所述词性对所述目标弹幕进行编码。
进一步地,所述词性包括中文、英文、阿拉伯数字、控制字符、表情图片、符号以及日语平假名中的至少一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810320766.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种定位参考信号传输方法及装置
- 下一篇:一种换流变检修质量综合评估方法