[发明专利]字幕生成方法及装置、存储介质及电子终端有效

申请号：	201711465976.6	申请日：	2017-12-28
公开（公告）号：	CN108184135B	公开（公告）日：	2020-11-03
发明（设计）人：	刘兴旺;王睿昆;刘岩;蒲秋霞	申请（专利权）人：	泰康保险集团股份有限公司
主分类号：	H04N21/235	分类号：	H04N21/235;H04N21/233;H04N21/488;H04N5/278;G10L15/26;G10L25/57;H04L29/06
代理公司：	隆天知识产权代理有限公司 72003	代理人：	李昕巍;章侃铱
地址：	100031 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字幕生成方法装置存储介质电子终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及多媒体技术领域，具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。所述方法包括：接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件；对所述第一音频文件进行预处理以获取第二音频文件；将所述第二音频文件按预设长度分割为若干音频块；利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据；根据所述期望文本数据生成字幕数据。本发明能够保证音频识别结果的连续性和准确性，进而实现对网络直播的音频进行实时识别，有效的保证网络直播视频字幕的时效性和准确性。

技术领域

本发明实施例涉及多媒体技术领域，具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。

背景技术

随着我国互联网的普及以及直播流媒体的流行，网络直播已经成为大众社交的一个重要媒介，被广泛的用在了电子商务、新闻发布会、视频会议等多种即时通讯场景中。网络直播能够提供提供及时的视频、音频服务，但是由于其较强的时效性，无法及时为用户提供字幕服务。

相关的视频字幕生成方法往往针对录播视频，且具有一定的处理时间，无法满足网络直播的及时性。而且，由于网络直播往往不具有专业的录制环境，并且视频传出端的网络环境各异，网络直播视频中的音频往往具有更多音质问题。因此，需要一种能够有效应对网络直播视频的实时性、适应网络直播形态的网络直播视频字幕生成方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端，进而至少在一定程度上克服相关技术中没有针对网络直播视频进行自动化字幕生成的工具的问题。

本发明实施例的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供一种字幕生成方法，包括：

接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件；

对所述第一音频文件进行预处理以获取第二音频文件；