[发明专利]字幕生成方法及装置、存储介质及电子终端有效

申请号：	201711465976.6	申请日：	2017-12-28
公开（公告）号：	CN108184135B	公开（公告）日：	2020-11-03
发明（设计）人：	刘兴旺;王睿昆;刘岩;蒲秋霞	申请（专利权）人：	泰康保险集团股份有限公司
主分类号：	H04N21/235	分类号：	H04N21/235;H04N21/233;H04N21/488;H04N5/278;G10L15/26;G10L25/57;H04L29/06
代理公司：	隆天知识产权代理有限公司 72003	代理人：	李昕巍;章侃铱
地址：	100031 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及多媒体技术领域，具体涉及一种字幕生成方法、一种字幕生成装置、一种存储介质以及一种电子终端。所述方法包括：接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件；对所述第一音频文件进行预处理以获取第二音频文件；将所述第二音频文件按预设长度分割为若干音频块；利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据；根据所述期望文本数据生成字幕数据。本发明能够保证音频识别结果的连续性和准确性，进而实现对网络直播的音频进行实时识别，有效的保证网络直播视频字幕的时效性和准确性。
搜索关键词：	字幕生成方法装置存储介质电子终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种字幕生成方法，其特征在于，包括：接收一网络直播的视频数据，提取所述视频数据的音频数据并存储为第一音频文件；对所述第一音频文件进行预处理以获取第二音频文件；将所述第二音频文件按预设长度分割为若干音频块；利用LSTM模型对各所述音频块进行语音识别以获取第一文本数据，将所述第一文本数据输入CTC损失函数模型以获取期望文本数据；根据所述期望文本数据生成字幕数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司，未经泰康保险集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711465976.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]字幕生成方法及装置、存储介质及电子终端有效

专利文献下载