[发明专利]一种直播流的剪辑方法、装置以及设备在审
申请号: | 201810689302.2 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108833969A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 王释涵 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04N21/433 | 分类号: | H04N21/433;G06F17/30;G10L25/48 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 直播流 高光 剪辑 音频流 起止时刻 解说 片段识别 人工成本 人工分析 需要剪辑 业务需求 大数据 互联网 申请 应用 保证 | ||
1.一种直播流的剪辑方法,其特征在于,包括:
获取直播流以及与所述直播流对应的解说音频流;
将所述解说音频流输入高光片段识别模型,获取所述高光片段识别模型输出的高光片段的起止时刻;所述高光片段识别模型是端到端的神经网络模型;
根据所述高光片段的起止时刻,从所述直播流中剪辑得到所述直播流的高光片段。
2.根据权利要求1所述的方法,其特征在于,所述高光片段识别模型包括:语音识别网络以及定位网络;
所述语音识别网络是以直播流对应的解说音频流作为输入,以解说文本作为输出的神经网络;
所述定位网络是以所述语音识别网络的输出以及所述解说音频流作为输入,以直播流对应的高光片段的起止时刻作为输出的神经网络。
3.根据权利要求2所述的方法,其特征在于,所述语音识别网络包括:声学模型、发音字典、语言模型以及解码器。
4.根据权利要求2所述的方法,其特征在于,所述定位网络包括:特征提取模型和定位模型;
所述特征提取模型是以所述语音识别网络的输出以及所述解说音频流作为输入,以语义特征、语速特征以及语调特征作为输出的神经网络;
所述定位模型是以所述特征提取模块的输出作为输入,以直播流对应的高光片段的起止时刻作为输出的神经网络。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练样本,所述训练样本包括:样本解说音频流、以及与样本解说音频流对应的直播流中高光片段的标注数据,所述高光片段的标注数据包括高光片段在与样本解说音频流对应的样本直播流中的起止时刻;
利用所述训练样本对高光片段识别初始模型进行迭代训练,获取满足预设训练结束条件的所述高光片段识别模型。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述高光片段识别模型以解说音频流作为输入,以高光片段对应的起止时刻以及所属标题类目为输出;
则所述方法还包括:
获取所述高光片段识别模型输出的高光片段对应的标题类目。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
根据广告播放时间起止时刻,从所述直播流的高光片段中删除广告。
8.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
根据模糊定位算法定位广告所在的分片;
从所述分片中确定广告起止时刻;
根据所述广告起止时刻,从所述直播流的高光片段中删除所述广告。
9.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
在直播界面发布所述直播流的高光片段。
10.根据权利要求1至5任一项所述的方法,其特征在于,所述直播流包括视频直播流或者音频直播流。
11.根据权利要求1至5任一项所述的方法,其特征在于,所述获取直播流以及与所述直播流对应的解说音频流,包括:
实时从直播服务器获取直播流以及与所述直播流对应的解说音频流。
12.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述高光片段对应的起止时刻,从所述直播流中剪辑得到所述直播流的高光片段,包括:
将所述高光片段对应的起止时刻输入云剪辑系统,通过云剪辑系统从所述直播流中剪辑得到所述直播流的高光片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810689302.2/1.html,转载请声明来源钻瓜专利网。