[发明专利]视频弹幕检测识别方法及装置有效
申请号: | 202010082625.2 | 申请日: | 2020-02-07 |
公开(公告)号: | CN111310757B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 毕福昆;冯素婷;韩健鸿 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/19;G06V10/82;G06N3/044;G06N3/045;G06N3/0464 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
地址: | 100144 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 弹幕 检测 识别 方法 装置 | ||
1.一种视频弹幕检测识别方法,其特征在于,包括:
将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;
基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;
其中,所述预先训练好的TextBoxes++网络和预先训练好的CRNN网络为预先采用带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像进行训练后得到的;
所述将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息,具体包括:
修改TextBoxes++网络的长宽比约束条件,使得修改后的TextBoxes++网络适用检测各种长宽比条件下的文本信息;
利用预先准备的带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像对所述修改后的TextBoxes++网络进行训练,得到所述训练好的TextBoxes++网络;
将所述待测图像输入至所述训练好的TextBoxes++网络进行弹幕文字的检测,得到弹幕文字检测框,并获取所述弹幕文字检测框中弹幕文字的坐标信息。
2.根据权利要求1所述的视频弹幕检测识别方法,其特征在于,所述修改TextBoxes++网络的长宽比约束条件,具体包括:
将TextBoxes++网络的aspect ratio修改为{2,5,7,9,10}。
3.根据权利要求1所述的视频弹幕检测识别方法,其特征在于,所述将待测图像输入至训练好的TextBoxes++网络进行弹幕文字的检测,具体包括:
将待测图像使用滑窗方式切分成多个图像块,将多个图像块依次输入至训练好的TextBoxes++网络进行弹幕文字的检测。
4.根据权利要求1或3所述的视频弹幕检测识别方法,其特征在于,在得到弹幕文字检测框之后,所述方法还包括:
设置检测框置信度评分阈值,将得到的弹幕文字检测框利用非极大值抑制的算法,过滤掉重叠度不满足所述置信度评分阈值约束条件的弹幕文字检测框,以保留满足约束条件的弹幕文字检测框。
5.根据权利要求1所述的视频弹幕检测识别方法,其特征在于,在获取所述弹幕文字的文本识别结果之后,所述方法还包括:
将所述弹幕文字的文本识别结果与预设不文明字库进行匹配,当匹配成功时,发出警示信息,记录并存储所述弹幕文字出现的时间信息、坐标信息和文本识别结果信息。
6.根据权利要求1所述的视频弹幕检测识别方法,其特征在于,所述方法还包括:
对带有弹幕的视频进行单帧截图操作,以形成原始数据集;
对所述原始数据集中的图像,进行弹幕文字位置和弹幕文字内容进行标注;
对完成标注的图像进行数据增广;
将进行数据增广后的图像作为所述视频弹幕样本图像;
其中,对完成标注的图像进行数据增广,具体包括:
对完成标注的图像按照第一关系模型进行亮度增广和对比度增广;所述第一关系模型为g(x,y)=a*f(x,y)+b;
其中,f(x,y)表示源图像x行、y列的像素;g(x,y)表示输出图像x行、y列的像素;a表示增益,用来控制图像的对比度;b表示偏置,用来控制图像的亮度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010082625.2/1.html,转载请声明来源钻瓜专利网。