[发明专利]视频字幕识别方法、装置、介质及电子设备在审
申请号: | 202110277906.8 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113052169A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 马天泽;王铭喜;马超 | 申请(专利权)人: | 北京小米移动软件有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 王晓霞 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 字幕 识别 方法 装置 介质 电子设备 | ||
1.一种视频字幕识别方法,其特征在于,所述方法包括:
获取待处理视频中的多个目标视频帧;
识别所述多个目标视频帧中的每个目标视频帧中的字幕文本;
按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同;
将同一字幕文本首次出现和最后出现时分别对应的所述目标视频帧的时间戳确定为所述同一字幕文本的起始时间和终止时间。
2.根据权利要求1所述的方法,其特征在于,所述识别所述多个目标视频帧中的每个目标视频帧中的字幕文本包括:
截取所述目标视频帧中出现字幕的目标图像;
获取所述目标图像中的字幕所对应的识别框;
对所述识别框中的所述字幕进行识别,以得到相应的所述字幕文本。
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标图像中的字幕所对应的识别框包括:
通过字幕文本检测模型获取所述目标图像中的所述字幕所对应的所述识别框,其中,所述字幕文本检测模型为预先训练好的深度学习模型。
4.根据权利要求3所述的方法,其特征在于,所述通过字幕文本检测模型获取所述目标图像中的所述字幕所对应的所述识别框包括:
通过所述字幕文本检测模型确定所述目标图像中的所有识别框,以及与所述所有识别框分别对应的检测得分,所述检测得分表征所述识别框的置信度;
将所述检测得分高于第一预设阈值的识别框确定为所述目标图像中的所述字幕所对应的所述识别框。
5.根据权利要求2所述的方法,其特征在于,所述对所述识别框中的所述字幕进行识别,以得到相应的所述字幕文本包括:
通过字幕文本识别模型对所述识别框中的所述字幕进行识别,以得到相应的所述字幕文本,其中,所述字幕文本识别模型为预先训练好的深度学习模型。
6.根据权利要求5所述的方法,其特征在于,所述字幕文本识别模型的训练数据中包括带有空格标记的训练数据、中文训练数据、英文训练数据、带有中文标点符号标记的训练数据和带有英文标点符号标记的训练数据。
7.根据权利要求5所述的方法,其特征在于,所述字幕文本识别模型的训练数据中包括长文本训练数据,所述长文本训练数据中识别框的长度大于预设长度。
8.根据权利要求5所述的方法,其特征在于,所述按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本是否相同包括:
按照所述多个目标视频帧在所述待处理视频中的顺序依次判断相邻的所述目标视频帧中的所述字幕文本之间的编辑距离;
将所述编辑距离小于第二预设阈值的两个或多个所述字幕文本确定为相同的字幕文本。
9.根据权利要求8所述的方法,其特征在于,所述通过字幕文本识别模型对所述识别框中的所述字幕进行识别,以得到相应的所述字幕文本还包括:
通过所述字幕文本识别模型确定所述识别框中的所有字幕文本,以及与所述所有字幕文本分别对应的识别得分,所述识别得分表征所述字幕文本的置信度;
在将所述编辑距离小于第二预设阈值的两个或多个所述字幕文本确定为相同的字幕文本之后,方法还包括:
将所述相同的字幕文本中,所述识别得分最大的字幕文本确定为所述相同的字幕文本所对应的字幕文本。
10.根据权利要求2所述的方法,其特征在于,在所述获取所述目标图像中的字幕所对应的识别框之后,方法还包括:
获取所述目标图像中所有识别框的坐标信息;
将所述所有识别框中坐标信息之间的距离小于第三预设阈值的识别框进行合并,得到合并后的识别框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司,未经北京小米移动软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110277906.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:音量调节方法及装置
- 下一篇:车载太阳能发电装置及电动车辆