[发明专利]带字幕视频人声分离方法、装置、存储介质及电子设备在审
申请号: | 202010879617.0 | 申请日: | 2020-08-27 |
公开(公告)号: | CN112218142A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 叶志坚;李稀敏;蔡渠棠 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | H04N21/431 | 分类号: | H04N21/431;H04N21/44;H04N21/488;G06K9/00;G06K9/32 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 吴圳添 |
地址: | 361009 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字幕 视频 人声 分离 方法 装置 存储 介质 电子设备 | ||
本发明涉及一种带字幕视频人声分离方法,包括获取带字幕视频对应的视频帧图像,确定所述视频帧图像的字幕区域;识别所述字幕区域的字幕内容;获取出现所述字幕内容开始帧和结束帧的时间确定所述字幕内容在所述带字幕视频的起始时间和结束时间;根据所述字幕内容在所述带字幕视频的起始时间和结束时间获取与所述带字幕视频中同步的音频。本发明基于带字幕的视频中出现相同字幕内容的起始时间和结束时间获取与所述带字幕视频中同步的音频,极大的提高人声分离方法的正确率。
技术领域
本发明涉及计算机技术领域,具体涉及一种带字幕视频人声分离方法、装置、存储介质及电子设备。
背景技术
目前人声聚类的算法都需要将一段长的多人说话的音频尽量的先按照句子分成单独的每个音频,再对这些音频进行聚类处理。
通常将多人说话的长音频分离成单独句子的短音频,是通过静音段的空段来进行划分的,当说话人的语速较慢,或者两个说话者间隙太短的时间,就很容易导致错误的分离,分离得到的短音频句子中就会包括两个两者或者两者以上的错误音频,不利于进行人声的聚类。
发明内容
本发明目的在于克服上述现有技术存在的不足,而提供一种带字幕视频人声分离方法及装置。
为了解决上述技术问题,本发明的技术方案是:
一种带字幕视频人声分离方法,包括步骤:
S1、获取带字幕视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、识别所述字幕区域的字幕内容;
S3、获取出现所述字幕内容开始帧和结束帧的时间确定所述字幕内容在所述带字幕视频的起始时间和结束时间;
S4、根据所述字幕内容在所述带字幕视频的起始时间和结束时间获取与所述带字幕视频中同步的音频。
进一步的,所述步骤S1中确定所述视频帧图像的字幕区域还进一步对所述字幕区域的背景进行黑化处理,同时使字幕变成白色。
进一步的,所述步骤S2通过ocr字符识别技术识别所述字幕内容。
进一步的,所述步骤S1中对所述视频帧图像按照时间顺序进行标注,并记录出现所述视频帧图像的时间。
进一步的,所述步骤S3中根据出现所述字幕内容开始帧和结束帧的时间是通过按照时间顺序依次比较前后帧的视频帧图像的字幕内容,出现连续相同的字幕内容则记录所述字幕内容开始帧和结束帧的时间。
进一步的,所述步骤S3中,所述字幕内容开始帧和结束帧,是指所述字幕内容对应的句子或段落的开始帧和结束帧;所述步骤S4中的获取的音频,是指所述句子或所述段落对应的音频。
进一步的,当所述步骤S1中无字幕区域出现时,则停止步骤S2、S3和S4的进行。
一种带字幕视频人声分离装置,包括:
图像获取模块,用于获取带字幕视频对应的视频帧图像;
字幕获取模块,用于获取所述视频帧图像的字幕区域;
字幕识别模块,用于识别所述字幕区域的字幕内容;
时间确定模块,用以获取相同字幕内容开始帧和结束帧的时间;
音频获取模块,用于获取与所述字幕内容同步的音频。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行上述任一项带字幕视频人声分离方法。
一种电子设备,所述电子设备包括:
存储器,用于存储指令;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010879617.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:汽车内饰成型表皮小角度缝纫装置
- 下一篇:用于对变电站内多目标跟踪定位的方法