[发明专利]视频字幕识别方法、装置、设备及存储介质有效
申请号: | 202010485647.3 | 申请日: | 2020-06-01 |
公开(公告)号: | CN111582241B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 彭俊石;吴飞;彭艺 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/62;G06V10/74;G06V10/764;G06V10/82;G06N3/04 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 字幕 识别 方法 装置 设备 存储 介质 | ||
1.一种视频字幕识别方法,其特征在于,包括:
从包含字幕的待识别视频中获取多帧图像,所述待识别视频的字幕为预定语言字幕;
对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果;
获取所述多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离;
基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像;
获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度;
根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果;
在所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果之前,所述方法还包括:
从训练视频中获取背景图像,所述背景图像包含预定语言字幕区域,所述训练视频包括多种类、场景丰富的预定语言训练视频,以获得覆盖不同色调、不同分辨率的场景下的背景图像;
从所述背景图像中排除所述预定语言字幕区域获得感兴趣区域;
获取预定语言文本,所述预定语言文本为已知内容的文本;
将所述预定语言文本融合至所述背景图像的感兴趣区域,生成包含预定语言字幕的合成图像;
基于所述合成图像和所述预定语言文本获得预定语言的训练图像和标签;
利用所述训练图像和标签训练端到端神经网络字符识别模型;
所述从所述背景图像中排除所述预定语言字幕区域获得感兴趣区域,包括:
将所述背景图像底部第一预设比例的区域截掉,获得所述感兴趣区域;或
在所述背景图像上部第二预设比例的区域随机截取预设高度的区域,获得所述感兴趣区域;
所述将所述预定语言文本融合至所述背景图像的感兴趣区域,生成包含预定语言字幕的合成图像包括:
对所述预定语言文本进行模糊处理获得仿真文本;
将所述仿真文本粘贴至所述背景图像的感兴趣区域,生成所述合成图像;
所述基于所述合成图像和所述预定语言文本获得预定语言的训练图像和标签包括:
根据将所述仿真文本粘贴至所述感兴趣区域的位置从所述合成图像中获得所述训练图像;
将所述预定语言文本作为所述训练图像的标签;
所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果包括:
基于所述端到端神经网络字符识别模型对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果。
2.根据权利要求1所述的视频字幕识别方法,其特征在于,在所述从包含字幕的待识别视频中获取多帧图像之前,所述方法还包括:
以预定间隔从所述待识别视频中选取多帧检测图像;
获得所述多帧检测图像的字幕区域边缘;
统计所述多帧检测图像的字幕区域边缘以确定所述待识别视频的字幕区域的上边缘和下边缘。
3.根据权利要求2所述的视频字幕识别方法,其特征在于,所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果包括:
根据所述字幕区域的上边缘和下边缘从所述多帧图像中提取字幕识别区域;
基于端到端神经网络字符识别模型对所述字幕识别区域中的字幕进行识别获得所述初始字幕识别结果。
4.根据权利要求3所述的视频字幕识别方法,其特征在于,所述端到端神经网络字符识别模型包括卷积层、循环层和转录层;
所述基于端到端神经网络字符识别模型对所述字幕识别区域中的字幕进行识别获得所述初始字幕识别结果包括:
通过所述卷积层从所述字幕识别区域中提取特征序列;
通过所述循环层预测所述特征序列对应标签的概率分布;
通过所述转录层根据所述特征序列对应标签的概率分布获得所述初始字幕识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010485647.3/1.html,转载请声明来源钻瓜专利网。