[发明专利]视频处理方法、装置、电子设备和存储介质有效
申请号: | 202210032604.9 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114494951B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 刘俊启 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06F16/438 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 杜月 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 处理 方法 装置 电子设备 存储 介质 | ||
1.一种视频处理方法,包括:
获取目标视频,所述目标视频为展示有演示文档的视频;
对所述目标视频中的多帧进行内容识别,以确定至少一个集合,其中,属于相同集合的各帧展示有演示文档中的相同幻灯片;
对所述至少一个集合中任意的目标集合,根据所述目标集合中各帧在所述目标视频的展示时刻,确定所述目标集合所展示的幻灯片对应的视频片段;
根据各所述幻灯片对应的视频片段,生成各所述幻灯片对应的图片和/或描述文本,各所述幻灯片对应的描述文本与所述幻灯片对应的视频片段的音频信息和字幕相匹配;
根据各所述幻灯片对应的图片和/或描述文本,生成所述演示文档的图文信息;
其中,所述根据各所述幻灯片对应的视频片段,生成各所述幻灯片对应的图片和/或描述文本,包括:
从各所述幻灯片对应的视频片段中,截取展示有对应幻灯片的目标视频帧的全部或部分,以得到各幻灯片的图片;
对各所述视频片段,进行语音识别,以得到第一文本;
对各所述视频片段中与所述语音同步展示的字幕进行识别,以得到与所述第一文本对齐的第二文本;
将所述第一文本中的子词与所述第二文本中对应的子词比较;在所述第一文本中的子词与所述第二文本中对应的子词发音相似,且字不同的情况下,根据所述第二文本中的子词生成所述描述文本中对应的子词;
在所述第一文本中的子词与所述第二文本中对应的子词字形相似,且发音不同的情况下,根据所述第一文本中的子词生成所述描述文本中对应的子词。
2.根据权利要求1所述的方法,其中,所述对所述至少一个集合中任意的目标集合,根据所述目标集合中各帧在所述目标视频的展示时刻,确定对应的视频片段,包括:
根据所述目标集合中各帧的展示时刻,确定所述目标集合所属展示时段的起止时刻;
根据所述展示时段的起止时刻,确定所述目标集合所展示的幻灯片对应的视频片段。
3.根据权利要求1所述的方法,其中,所述从各所述幻灯片对应的视频片段中,截取展示有对应幻灯片的目标视频帧的全部或部分,以得到各幻灯片的图片,包括:
将各所述视频片段中,连续多帧显示内容相似度大于设定第一阈值的视频帧作为所述目标视频帧;
在多帧所述目标视频帧的显示内容相似度小于设定第二阈值的情况下,在所述目标视频帧中识别幻灯片的边框;其中,所述第二阈值大于所述第一阈值;
根据所述边框,确定幻灯片区域;
从所述目标视频帧中截取所述幻灯片区域作为对应幻灯片的图片。
4.根据权利要求3所述的方法,其中,所述方法还包括:
在多帧所述目标视频帧的显示内容相似度大于或等于所述第二阈值的情况下,截取所述目标视频帧的全部作为对应幻灯片的图片。
5.根据权利要求1-4任一项所述的方法,其中,所述根据各所述幻灯片对应的图片和/或描述文本,生成所述演示文档的图文信息,包括:
在所述目标视频展示的幻灯片为多张的情况下,按照幻灯片的展示顺序,对各所述幻灯片的图片和描述文本排版,以得到所述演示文档的图文信息;
在至少两帧幻灯片之间存在大于设定长度阈值的目标描述文本,则在所述目标描述文本之中,插入对应的幻灯片的图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210032604.9/1.html,转载请声明来源钻瓜专利网。