[发明专利]目标弹幕的识别方法、装置、终端及存储介质有效

申请号：	201810320766.6	申请日：	2018-04-11
公开（公告）号：	CN108537176B	公开（公告）日：	2021-07-30
发明（设计）人：	刘兵;张文明;陈少杰	申请（专利权）人：	武汉斗鱼网络科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;H04N21/4788;H04N21/435
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	430070 湖北省武汉市武汉东湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标弹幕识别方法装置终端存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种目标弹幕的识别方法、装置、终端及存储介质。其中，目标弹幕的识别方法包括：获取待识别的目标弹幕，并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码；根据编码后的所述目标弹幕生成预设格式的特征向量，并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别；根据识别结果确定所述目标弹幕的类型。本发明实施例的技术方案，能够基于目标弹幕的词性对目标弹幕进行识别，解决了现有技术中目标弹幕识别不准确的技术问题，结合目标弹幕的结构特点进行识别，有效提高了弹幕识别的准确性。

技术领域

本发明实施例涉及计算机应用技术领域，尤其涉及一种目标弹幕的识别方法、装置、终端及存储介质。

背景技术

目前，直播行业由于其具有多样化、个性化以及即时性等特点已经受到越来越多的用户青睐。为了便于交流，用户在观看直播视频时，还经常会通过发送弹幕以达到和主播、观众互动的目的。但也存在部分用户会发送一些垃圾弹幕，例如广告弹幕、涉政弹幕等。而这部分弹幕，对于直播平台来说极其影响用户体验，需要及时识别并拦截。

当前弹幕识别主要是对文本内容进行切分并抽取相关特征，进而利用这些特征对弹幕进行判断。但是，采用该方案会存在如下问题：当中文文本内容过多时，若抽取中文文本的部分特征，则无法覆盖所有的中文词汇，有可能导致目标弹幕识别不准确；2、广告弹幕会穿插一些其他符号等，从而导致仅仅根据部分内容无法识别出是不是目标弹幕。

发明内容

本发明实施例提供了一种目标弹幕的识别方法、装置、终端及存储介质，以解决弹幕识别准确率低的问题，实现快速精准识别出目标弹幕的技术效果。

第一方面，本发明实施例提供了一种目标弹幕的识别方法，该方法包括：

获取待识别的目标弹幕，并基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码；

根据编码后的所述目标弹幕生成预设格式的特征向量，并将所述特征向量输入至预先训练好的分类模型中对所述目标弹幕进行识别；

根据识别结果确定所述目标弹幕的类型。

进一步地，所述基于根据所述目标弹幕中各字符的词性对所述目标弹幕进行编码，包括：

基于预先建立的词性字典确定所述目标弹幕中各字符的词性，并根据所述词性对所述目标弹幕进行编码。

进一步地，所述根据编码后的所述目标弹幕生成预设格式的特征向量，包括：

基于N-gram将编码后的所述目标弹幕进行分词，根据预设的转化规则分词后的各个字符转化为预设格式的特征向量。

进一步地，所述的方法还包括：

获取所述弹幕样本，并基于根据所述弹幕样本中各字符的词性对所述弹幕样本进行编码；