[发明专利]实时字幕的处理方法和装置在审

申请号：	202011321714.4	申请日：	2020-11-23
公开（公告）号：	CN112511910A	公开（公告）日：	2021-03-16
发明（设计）人：	贺志龙;吴林锋	申请（专利权）人：	浪潮天元通信信息系统有限公司
主分类号：	H04N21/488	分类号：	H04N21/488;H04N21/434;H04L29/06;G10L15/22;G10L15/26
代理公司：	济南信达专利事务所有限公司 37100	代理人：	李世喆;姜鹏
地址：	250100 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实时字幕处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种实时字幕的处理方法和装置，该方法包括：基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕，其中，所述字幕携带有所述字幕的时间轴，所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间；根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成。本发明的方案能够有效降低字幕的生成、合成和处理的延时，保证视频直播的实时性。

技术领域

本发明涉及计算机技术领域，特别涉及一种实时字幕的处理方法和装置。

背景技术

在当前的视频直播技术领域中，由于视频直播场景对实时性的要求很高，往往无法提供实时字幕。随着视频直播的流行，人们对视频直播字幕的需求也越来越迫切。但是视频直播是随着事件的现场发生和进行而开展的，无法提前录制字幕，如何生成字幕并及时合成到视频直播中，这是一个无法避免的问题。

目前业界的解决方案是：将视频直播的音频流和视频流进行分离，将剥离出的音频流进行语音识别转换为文字，这样就解决了字幕的生成问题。接下来要解决的是字幕的合成问题，因为一段音频不可能全部都是主播在说话，需要识别出字幕的开始时间和结束时间，再比对原音频流的时间戳，进行同步合成。在合成的过程中，根据直播的不同场景需求，往往还需要对字幕进行各种定制化处理。

字幕的生成、合成和处理都需要时间，这些延时都将推迟整个视频直播的播出。因此实时性问题就成为一个亟待解决的问题。

发明内容

本发明实施例提供了实时字幕的处理方法和装置，能够有效降低字幕的生成、合成和处理的延时，保证视频直播的实时性。

第一方面，本发明实施例提供了实时字幕的处理方法，包括：

基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；

基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；

基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕，其中，所述字幕携带有所述字幕的时间轴，所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间；

根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成。

在一种可能的设计中，所述根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成，包括：

根据预设的定制化处理规则对所述字幕进行处理，得到目标字幕；

将所述视频流、所述音频流和所述目标字幕进行合成。

在一种可能的设计中，所述定制化处理规则，包括：字幕过滤规则、字幕替换规则和/或字幕修饰规则；