[发明专利]一种视频数据处理方法、装置、设备及存储介质有效
申请号: | 202010943940.X | 申请日: | 2020-09-10 |
公开(公告)号: | CN111813998B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 秦勇;李兵 | 申请(专利权)人: | 北京易真学思教育科技有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/75;G06F16/78;G06K9/00;G06F16/951;G06N3/04;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 阎敏;邓海鸿 |
地址: | 100144 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 数据处理 方法 装置 设备 存储 介质 | ||
本申请提出一种视频数据处理方法、装置、设备及存储介质;其中,该方法包括:确定视频信息,所述视频信息是从预设视频信息中选出去的,所述预设视频信息是对视频数据进行视频和音频分离后所得到的;确定所述视频信息中视频帧所展示的字幕内容;至少基于字幕内容对所述视频信息中的视频帧进行归类处理,得到视频帧序列,其中,所述视频帧序列中各视频帧所展示的字幕内容相关联;确定所述视频帧序列所对应的时间信息,得到所述视频帧序列对应的字幕内容的时间信息,以从所述视频数据的音频信息中确定出与所述视频帧序列所对应的字幕内容相匹配的目标音频信息。
技术领域
本申请涉及数据处理技术,尤其涉及一种视频数据处理方法、装置、设备及存储介质。
背景技术
现有以深度学习神经网络模型为主导的技术都需要使用训练数据,但,就目前而言,大多训练数据均需要通过人工标注来实现,尤其对于特定模型而言,甚至需要人工录播来生成视频、音频、字幕内容三者相匹配的训练数据,所以,极大地提高了成本。
发明内容
本申请实施例提供一种视频数据处理方法、装置、设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种视频数据处理方法,包括:
确定视频信息,所述视频信息是从预设视频信息中选出去的,所述预设视频信息是对视频数据进行视频和音频分离后所得到的;
确定所述视频信息中视频帧所展示的字幕内容;
至少基于字幕内容对所述视频信息中的视频帧进行归类处理,得到视频帧序列,其中,所述视频帧序列中各视频帧所展示的字幕内容相关联;
确定所述视频帧序列所对应的时间信息,得到所述视频帧序列对应的字幕内容的时间信息,以从所述视频数据的音频信息中确定出与所述视频帧序列所对应的字幕内容相匹配的目标音频信息。
在一种实施方式中,还包括:
基于所述视频帧序列、所述视频帧序列对应的字幕内容、以及确定出的所述视频帧序列所对应的目标音频信息,生成视频片段;其中,所述视频片段中所述目标音频信息与所述视频片段所呈现的字幕内容相匹配。
在一种实施方式中,还包括:
将所述视频帧序列,以及确定出的所述视频帧序列所对应的目标音频信息作为训练数据;或者,将基于所述视频帧序列和所述目标音频信息生成的视频片段作为训练数据;
至少将所述训练数据输入至预设模型,以利用所述训练数据的视频帧中人脸图像的关键点特征与所述目标音频信息的音频特征之间的对应关系对预设模型进行训练。
在一种实施方式中,还包括:
获取视频数据,其中,所述视频数据中展示有字幕内容;
将所述视频数据中视频和音频进行分离处理,得到视频信息和音频信息;
将分离得到的所述视频信息作为预设视频信息。
在一种实施方式中,所述确定所述视频信息中视频帧所展示的字幕内容,包括:
检测得到所述视频信息的视频帧中字幕内容所处位置;
对所述视频帧中字幕内容所处位置进行文本识别,得到所述视频信息中视频帧所展示的字幕内容。
在一种实施方式中,所述检测得到所述视频信息的视频帧中字幕内容所处位置,包括:
获取文本检测模型;
将所述视频信息的视频帧输入至所述文本检测模型,得到所述视频信息的视频帧中字幕内容所处位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易真学思教育科技有限公司,未经北京易真学思教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010943940.X/2.html,转载请声明来源钻瓜专利网。