[发明专利]实时字幕的处理方法和装置在审
申请号: | 202011321714.4 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112511910A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 贺志龙;吴林锋 | 申请(专利权)人: | 浪潮天元通信信息系统有限公司 |
主分类号: | H04N21/488 | 分类号: | H04N21/488;H04N21/434;H04L29/06;G10L15/22;G10L15/26 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆;姜鹏 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时 字幕 处理 方法 装置 | ||
本发明提供了一种实时字幕的处理方法和装置,该方法包括:基于WebSocket协议获取实时采集的视频流和音频流,其中,所述视频流和所述音频流均携带有起始时间戳;基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理;基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕,其中,所述字幕携带有所述字幕的时间轴,所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间;根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成。本发明的方案能够有效降低字幕的生成、合成和处理的延时,保证视频直播的实时性。
技术领域
本发明涉及计算机技术领域,特别涉及一种实时字幕的处理方法和装置。
背景技术
在当前的视频直播技术领域中,由于视频直播场景对实时性的要求很高,往往无法提供实时字幕。随着视频直播的流行,人们对视频直播字幕的需求也越来越迫切。但是视频直播是随着事件的现场发生和进行而开展的,无法提前录制字幕,如何生成字幕并及时合成到视频直播中,这是一个无法避免的问题。
目前业界的解决方案是:将视频直播的音频流和视频流进行分离,将剥离出的音频流进行语音识别转换为文字,这样就解决了字幕的生成问题。接下来要解决的是字幕的合成问题,因为一段音频不可能全部都是主播在说话,需要识别出字幕的开始时间和结束时间,再比对原音频流的时间戳,进行同步合成。在合成的过程中,根据直播的不同场景需求,往往还需要对字幕进行各种定制化处理。
字幕的生成、合成和处理都需要时间,这些延时都将推迟整个视频直播的播出。因此实时性问题就成为一个亟待解决的问题。
发明内容
本发明实施例提供了实时字幕的处理方法和装置,能够有效降低字幕的生成、合成和处理的延时,保证视频直播的实时性。
第一方面,本发明实施例提供了实时字幕的处理方法,包括:
基于WebSocket协议获取实时采集的视频流和音频流,其中,所述视频流和所述音频流均携带有起始时间戳;
基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理;
基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕,其中,所述字幕携带有所述字幕的时间轴,所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间;
根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成。
在一种可能的设计中,所述根据所述起始时间戳和所述时间轴,将所述视频流、所述音频流和所述字幕进行合成,包括:
根据预设的定制化处理规则对所述字幕进行处理,得到目标字幕;
将所述视频流、所述音频流和所述目标字幕进行合成。
在一种可能的设计中,所述定制化处理规则,包括:字幕过滤规则、字幕替换规则和/或字幕修饰规则;
所述字幕过滤规则包括对所述字幕中第一目标词语进行过滤;
所述字幕替换规则包括对所述字幕中第二目标词语进行替换;
所述字幕修饰规则包括对所述字幕中第三目标词语进行修饰。
在一种可能的设计中,所述基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理,包括:
基于WebSocket协议将除所述起始时间戳外的音频流进行数据转换,得到第一音频数据,其中,所述数据转换包括数据大小转换和数据格式转换;
将所述第一音频数据按照按照预设的编码类型进行编码,得到第二音频数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮天元通信信息系统有限公司,未经浪潮天元通信信息系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011321714.4/2.html,转载请声明来源钻瓜专利网。