[发明专利]视频字幕识别方法、装置、设备及存储介质有效
申请号: | 202010485647.3 | 申请日: | 2020-06-01 |
公开(公告)号: | CN111582241B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 彭俊石;吴飞;彭艺 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/62;G06V10/74;G06V10/764;G06V10/82;G06N3/04 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 字幕 识别 方法 装置 设备 存储 介质 | ||
本公开提供一种视频字幕识别方法、装置、设备及存储介质,涉及计算机视觉技术领域。该方法包括:从包含字幕的待识别视频中获取多帧图像;对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果;获取所述多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离;基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像;获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度;根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果。该方法实现了一定程度上提高视频字幕的识别结果准确性。
技术领域
本公开涉及计算机视觉技术领域,具体而言,涉及一种视频字幕识别方法、装置、设备及可读存储介质。
背景技术
随着计算机技术及互联网的发展,用户可接触到的视频的语言种类也日趋丰富。用户处理各种语言的视频时,可通过视频字幕提取技术从视频中提取、识别字幕,用于各种用途,例如视频分类。
对视频字幕进行识别时通常采用光学字符识别(Optical CharacterRecognition,OCR)技术。OCR解决方案一般包含两个步骤:1)文本区域检测:找到包含文字的区域;2)文本识别:识别区域中的文字。相关技术中采用OCR识别模型进行字幕文本识别时,由于视频背景图像较为复杂,可能发生某些字符识别错误的情况,字幕识别结果的准确率较低。相关技术中在进行文本区域检测时采用CTPN或EAST基于深度学习的算法,在相对简单的场景下,检测效果较好,但耗时较长,检测效率较低。相关技术中OCR识别模型在针对具体的应用场景进行识别时具有局限性,例如在对视频字幕进行识别时,视频字幕的背景复杂,采用相关技术中的 OCR识别模型进行字幕识别的准确性较差;又例如没有针对小语种视频字幕的OCR识别方法,无法识别出小语种视频的字幕。
如上所述,如何提供能够准确识别视频中字幕的方法成为亟待解决的问题。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种视频字幕识别方法、装置、设备及可读存储介质,至少在一定程度上提高视频字幕识别的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提供一种视频字幕识别方法,包括:从包含字幕的待识别视频中获取多帧图像;对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果;获取所述多帧图像中相邻两帧图像的初始字幕识别结果之间的编辑距离;基于所述相邻两帧图像的初始字幕识别结果之间的编辑距离获得多帧连续的相似图像;获取所述多帧连续的相似图像的初始字幕识别结果的语义可信度;根据所述语义可信度确定所述多帧连续的相似图像的最终字幕识别结果。
根据本公开的一实施例,在所述从包含字幕的待识别视频中获取多帧图像之前,所述方法还包括:预定间隔从所述待识别视频中选取多帧检测图像;获得所述多帧检测图像的字幕区域边缘;统计所述多帧检测图像的字幕区域边缘以确定所述待识别视频的字幕区域的上边缘和下边缘。
根据本公开的一实施例,所述对所述多帧图像中的字幕进行识别获得各帧图像的初始字幕识别结果包括:根据所述字幕区域的上边缘和下边缘从所述多帧图像中提取字幕识别区域;基于端到端神经网络字符识别模型对所述字幕识别区域中的字幕进行识别获得所述初始字幕识别结果。
根据本公开的一实施例,所述端到端神经网络字符识别模型包括卷积层、循环层和转录层;所述基于端到端神经网络字符识别模型对所述字幕识别区域中的字幕进行识别获得所述初始字幕识别结果包括:通过所述卷积层从所述字幕识别区域中提取特征序列;通过所述循环层预测所述特征序列对应标签的概率分布;通过所述转录层根据所述特征序列对应标签的概率分布获得所述初始字幕识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010485647.3/2.html,转载请声明来源钻瓜专利网。