[发明专利]一种字幕生成方法和装置在审

申请号：	202111142783.3	申请日：	2021-09-28
公开（公告）号：	CN113660537A	公开（公告）日：	2021-11-16
发明（设计）人：	殷元江;高发宝;徐立	申请（专利权）人：	北京七维视觉科技有限公司
主分类号：	H04N21/488	分类号：	H04N21/488;G10L15/26;G06K9/32;G06K9/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	付丽
地址：	100013 北京市东***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种字幕生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种字幕生成方法和装置，其中，方法包括：检测目标视频中所包含人物的状态和/或目标视频的音频波形幅值，根据目标视频中所包含人物的状态和/或目标视频的音频波形幅值，判断目标视频中是否有在说话的目标人物，若判定目标视频中有在说话的目标人物，则开始获取目标视频的语音识别结果，直至根据目标人物的状态和/或目标视频的音频波形幅值判定目标人物不再说话，最后根据获取的语音识别结果生成目标人物对应的字幕信息。本申请能够基于目标视频中所包含人物的状态和/或目标视频的音频波形幅值，生成目标视频所包含的各个人物分别对应的字幕信息，生成的字幕信息效果更好。

技术领域

本申请涉及多媒体处理技术领域，特别是涉及一种字幕生成方法和装置。

背景技术

现有的媒体视频在播放时，通常需要同步加上字幕信息，以便于媒体视频观看者更好地理解、把握媒体视频传递的信息内容。

目前，媒体视频匹配的字幕信息的生成方式有两种，第一种为人工添加方式，即字幕添加人员记录媒体视频中的音频信息对应的文字信息，然后将记录的文字信息添加至视频中，形成音频信息对应的字幕信息，然而人工添加字幕信息的方式时间成本高，需要耗费大量的人力资源，效率较低；第二种为语音识别方式，即对媒体视频中的音频信息进行语音识别，获得音频信息对应的文字信息，然后基于文字信息生成音频信息对应的字幕信息，然而语音识别只能做到“听声出字”，但是做不到“听谁在说”，因此无法生成媒体视频中所包含的各个人物分别对应的字幕信息，生成的字幕信息效果较差。

发明内容

有鉴于此，本申请提供了一种字幕生成方法和装置，用于生成目标视频所包含的各个人物分别对应的字幕信息，其技术方案如下：

一种字幕生成方法，包括：

检测目标视频中所包含人物的状态和/或目标视频的音频波形幅值，其中，人物的状态包括指示人物未说话的第一状态和指示人物在说话的第二状态；

根据目标视频中所包含人物的状态和/或目标视频的音频波形幅值，判断目标视频中是否有在说话的目标人物；

若判定目标视频中有在说话的目标人物，则开始获取目标视频的语音识别结果，直至根据目标人物的状态和/或目标视频的音频波形幅值判定目标人物不再说话；

根据获取的语音识别结果生成目标人物对应的字幕信息。

可选的，根据目标视频中所包含人物的状态，判断目标视频中是否有在说话的目标人物，包括：

若目标视频中有由第一状态切换为第二状态的人物，则判定目标视频中有在说话的目标人物。

可选的，根据目标视频中所包含人物的状态和/或目标视频的音频波形幅值，判断目标视频中是否有在说话的目标人物，包括：

若目标视频中有由第一状态切换为第二状态的人物，且目标视频的音频波形幅值大于或等于预设的幅值阈值，则判定目标视频中有在说话的目标人物。

可选的，根据获取的语音识别结果生成目标人物对应的字幕信息，包括：