[发明专利]字幕生成方法及装置、存储介质及电子终端有效
申请号: | 201711465976.6 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108184135B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 刘兴旺;王睿昆;刘岩;蒲秋霞 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
主分类号: | H04N21/235 | 分类号: | H04N21/235;H04N21/233;H04N21/488;H04N5/278;G10L15/26;G10L25/57;H04L29/06 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 李昕巍;章侃铱 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字幕 生成 方法 装置 存储 介质 电子 终端 | ||
本发明涉及多媒体技术领域,具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。所述方法包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;根据所述期望文本数据生成字幕数据。本发明能够保证音频识别结果的连续性和准确性,进而实现对网络直播的音频进行实时识别,有效的保证网络直播视频字幕的时效性和准确性。
技术领域
本发明实施例涉及多媒体技术领域,具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。
背景技术
随着我国互联网的普及以及直播流媒体的流行,网络直播已经成为大众社交的一个重要媒介,被广泛的用在了电子商务、新闻发布会、视频会议等多种即时通讯场景中。网络直播能够提供提供及时的视频、音频服务,但是由于其较强的时效性,无法及时为用户提供字幕服务。
相关的视频字幕生成方法往往针对录播视频,且具有一定的处理时间,无法满足网络直播的及时性。而且,由于网络直播往往不具有专业的录制环境,并且视频传出端的网络环境各异,网络直播视频中的音频往往具有更多音质问题。因此,需要一种能够有效应对网络直播视频的实时性、适应网络直播形态的网络直播视频字幕生成方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于提供一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端,进而至少在一定程度上克服相关技术中没有针对网络直播视频进行自动化字幕生成的工具的问题。
本发明实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供一种字幕生成方法,包括:
接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;
对所述第一音频文件进行预处理以获取第二音频文件;
将所述第二音频文件按预设长度分割为若干音频块;
利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;
根据所述期望文本数据生成字幕数据。
可选的,对所述第二音频文件分割音频块之前,所述方法还包括:
对所述第二音频文件进行去噪处理;
对去噪处理后的所述第二音频文件进行语音端点检测。
可选的,所述CTC损失函数模型包括:
F(a-ab-)=F(-aa-abb)=aab
其中:a-ab-’、‘-aa-abb’分别为不同的输入序列。
可选的,所述对所述第一音频文件进行预处理包括:
提取所述网络直播视频数据中的音频数据并实时判断当前音频数据块是否不可解析;
在判断当前音频数据块不可解析时,根据所述视频数据中各数据块的数据类型标志及媒体流ID确定下一个可解析的音频数据块。
可选的,在获取所述第一文本数据后,所述方法还包括:
确定与所述不可解析数据块的相邻数据块的文本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711465976.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频流安全转发方法及系统
- 下一篇:一种视频合流方法及装置