[发明专利]字幕生成方法及装置、存储介质及电子终端有效
申请号: | 201711465976.6 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108184135B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 刘兴旺;王睿昆;刘岩;蒲秋霞 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
主分类号: | H04N21/235 | 分类号: | H04N21/235;H04N21/233;H04N21/488;H04N5/278;G10L15/26;G10L25/57;H04L29/06 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 李昕巍;章侃铱 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及多媒体技术领域,具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。所述方法包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;根据所述期望文本数据生成字幕数据。本发明能够保证音频识别结果的连续性和准确性,进而实现对网络直播的音频进行实时识别,有效的保证网络直播视频字幕的时效性和准确性。 | ||
搜索关键词: | 字幕 生成 方法 装置 存储 介质 电子 终端 | ||
【主权项】:
1.一种字幕生成方法,其特征在于,包括:接收一网络直播的视频数据,提取所述视频数据的音频数据并存储为第一音频文件;对所述第一音频文件进行预处理以获取第二音频文件;将所述第二音频文件按预设长度分割为若干音频块;利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据,将所述第一文本数据输入CTC损失函数模型以获取期望文本数据;根据所述期望文本数据生成字幕数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711465976.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种视频流安全转发方法及系统
- 下一篇:一种视频合流方法及装置