[发明专利]一种字幕叠加方法及装置在审
申请号: | 201710559772.2 | 申请日: | 2017-07-11 |
公开(公告)号: | CN107222792A | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 牛伟;李俊 | 申请(专利权)人: | 成都德芯数字科技股份有限公司 |
主分类号: | H04N21/488 | 分类号: | H04N21/488;H04N21/439;H04N21/4402;H04N21/8547 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 宋南 |
地址: | 610000 四川省成都市武侯*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字幕 叠加 方法 装置 | ||
技术领域
本发明涉及广播电视技术领域,具体而言,涉及一种字幕叠加方法及装置。
背景技术
随着科学技术的发展和人们生活水平的提高,视频已经成为人们工作、学习、社交以及休闲娱乐不可替代的重要方式,并且人们对于视频的要求也越来越高。目前,在视频编辑系统中,对于数据流视频文件的字幕的设定及生成的方式各不相同。但是,目前常用的解码器显示的字幕一般都是电视台通过采编系统直接在视频上进行编辑,编辑完成以后给编码器压缩编码再进行传输。所以,接收机解出来的字幕只能是电视台预先编辑好的字幕。如此,部分无字幕的电视节目将不利于听力障碍人群收看。
发明内容
有鉴于此,本发明的目的在于提供一种字幕叠加方法及装置,以解决上述问题。
本发明实施例提供一种字幕叠加方法,应用于字幕叠加终端,所述字幕叠加终端包括多个输入接口,所述方法包括:
接收分别从所述多个输入接口输入的TS流信号,将所述TS流信号的模式转换为指定模式;
对转换后的TS流信号进行解码,获得音频流和视频流;
对获得的所述音频流进行滤波处理,获得语音信息;
通过语音识别将所述语音信息转换为文本信息,并根据所述文本信息生成对应的字幕图片;
将所述视频流和所述字幕图片进行叠加处理,生成包括字幕的数据流视频文件。
进一步地,所述转换后的TS流信号包括多套节目的TS流信号,所述方法还包括:
接收输入的叠加请求指令以及输入的节目信息;
根据接收到的所述节目信息将包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号。
进一步地,所述方法还包括:
检测解码后的与所述节目信息对应的视频流中是否包含文本信息,若不包含文本信息,则执行所述对获得的所述音频流进行滤波处理的步骤。
进一步地,所述通过语音识别将所述语音信息转换为文本信息的步骤,包括:
对所述语音信息进行分帧处理,获得多段语音帧;
将各帧语音帧进行转换,获得对应的多维向量,其中各所述多维向量分别包含各所述语音帧的内容信息;
根据获得的多个所述多维向量,获得所述语音信息对应的文本信息。
进一步地,所述方法还包括:
设定一线性递增的参考时钟;
根据所述参考时钟将获得的所述音频流中的每个音频数据块和所述视频流中的每个视频数据块打上时间戳;
读取所述音频流中的各所述音频数据块和所述视频流中的各所述视频数据块上的时间戳,并参考当前参考时钟上的时间来进行音频输出和视频输出,以使音视频达到同步。
本发明另一较佳实施例提供一种字幕叠加装置,应用于字幕叠加终端,所述字幕叠加终端包括多个输入接口,所述字幕叠加装置包括接收模块、解码模块、滤波处理模块、第一转换模块及叠加处理模块;
所述接收模块用于接收分别从所述多个输入接口输入的TS流信号,将所述TS流信号的模式转换为指定模式;
所述解码模块用于对转换后的TS流信号进行解码,获得音频流和视频流;
所述滤波处理模块用于对获得的所述音频流进行滤波处理,获得语音信息;
所述第一转换模块用于通过语音识别将所述语音信息转换为文本信息,并根据所述文本信息生成对应的字幕图片;
所述叠加处理模块用于将所述视频流和所述字幕图片进行叠加处理,生成包括字幕的数据流视频文件。
进一步地,所述转换后的TS流信号包括多套节目的TS流信号,所述字幕叠加装置还包括指令接收模块及第二转换模块;
所述指令接收模块用于接收输入的叠加请求指令以及输入的节目信息;
所述第二转换模块用于根据接收到的所述节目信息将包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号。
进一步地,所述字幕叠加装置还包括检测模块;
所述检测模块用于检测解码后的与所述节目信息对应的视频流中是否包含文本信息,若不包含文本信息,则执行所述滤波处理模块所执行的对获得的所述音频流进行滤波处理的步骤。
进一步地,所述第一转换模块包括分帧单元、转换单元以及获取单元;
所述分帧单元用于对所述语音信息进行分帧处理,获得多段语音帧;
所述转换单元用于将各帧语音帧进行转换,获得对应的多维向量,其中各所述多维向量分别包含各所述语音帧的内容信息;
所述获取单元用于根据获得的多个所述多维向量,获得所述语音信息对应的文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都德芯数字科技股份有限公司,未经成都德芯数字科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710559772.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频通话信息的切换方法、系统及服务器
- 下一篇:一种智能音箱显示装置