[发明专利]一种基于声纹识别的跨屏截取电视内容的方法在审
申请号: | 201811185574.5 | 申请日: | 2018-10-11 |
公开(公告)号: | CN110418159A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 刘晓初;黄克;叶小蕾;张元;王伟;周为;张战军 | 申请(专利权)人: | 彩云之端文化传媒(北京)有限公司 |
主分类号: | H04N21/233 | 分类号: | H04N21/233;H04N21/2343;H04N21/235;H04N21/258;H04N21/431;H04N21/435;H04N21/439;H04N21/4402;H04N21/45;H04N21/845;H04N21/8547 |
代理公司: | 北京爱普纳杰专利代理事务所(特殊普通合伙) 11419 | 代理人: | 王玉松 |
地址: | 100043 北京市石景山区石景*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 电视内容 录音片段 声纹识别 截取 跨屏 视频 传输物理 电视传输 分离音频 模拟电视 匹配步骤 视频编辑 视频截取 数据传输 数字电视 业务应用 推送 泄密 转码 还原 入库 局限 发布 应用 网络 | ||
1.一种基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述方法包括如下步骤:
S1:转码入库步骤云端服务器监测频道源的直播或点播的音视频流,经转码后存入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令提取所述指定内容ID音频流的声音指纹,并将每个所述指定内容ID音频流的声音指纹存储形成声纹库;所述内容ID包括直播频道ID和点播节目ID;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取每个录音片段的声音指纹;
S5:录音片段声纹匹配步骤将所述录音片段的声音指纹与所述声纹库中的声音指纹进行匹配;匹配后,获取该正在播放的音视频流的内容ID和时间戳;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以时间戳为起点向前截取T时长的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频截取步骤手机端获取所述直播频道或点播节目片段的播放窗口和截频拖拽条,用户根据所述播放窗口播放的所述直播频道或点播节目片段拖动所述截频拖拽条发出截取命令来截取感兴趣的短视频;
S8:短视频编辑发布步骤为截取的所述短视频编辑标题并添加话题或标签后即可发布及分享。
2.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述频道源包括来自IPTV、数字电视或模拟电视的音视频流,所述音视频流经过转码再进入步骤S1。
3.如权利要求3所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述多段时长录音片段包括m段T时长的录音片段,第m段录音片段大于第m-1段录音片段的时长,Tm>Tm-1。
4.如权利要求4所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,m为3时,T优选为3s、5s和15s。
5.如权利要求5所述的基于声纹识别的跨屏截取电视节目的方法,其特征在于,所述匹配为m段录音片段依次匹配。
6.如权利要求1所述的基于声纹识别的跨屏截取电视节目的方法,其特征在于,所述匹配为m段录音片段依次累积匹配。
7.如权利要求1所述的基于声纹识别的跨屏截取电视节目的方法,其特征在于,所述截频拖拽条显示与所述播放内容的定位时间坐标对应的帧画面,供用户进行选择。
8.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于:所述声音指纹的提取的特征参数包括MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC中的一种或多种,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
所述声纹匹配包括概率统计方法、DTW、VQ、HMM、ANN、SVM、DBN中的一种或多种,其中:DTW为动态时间规整、VQ为矢量量化、HMM为隐马尔可夫模型、ANN为人工神经网络方法、SVM为支持向量机、DBN为动态贝叶斯网络。
9.如权利要求1所述的基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述S3步骤中,所述声纹命令包括采样时长命令,所述采样时长命令包括指定转码入库音视频流的时长和采样频率。
10.一种基于声纹识别的跨屏截取电视内容的方法,其特征在于,所述方法包括如下步骤:
S1:转码入库步骤监测电视频道的直播或点播的音视频流,经转码后入电视媒资库,获得转码入库音视频流;
S2:分离音频步骤分离指定内容ID的转码入库音视频流,获取指定内容ID音频流;
S3:提取声纹及建立声纹库步骤基于声纹命令和采样时长指令提取所述指定内容ID音频流和时长的声音指纹,并将对每个所述指定内容ID音频流和采样时长的声音指纹入声纹库;所述内容ID包括直播频道ID和点播节目ID,每个采样时长均含有特征参数并按照时间顺序连接;
S4:录音片段声纹提取步骤移动终端对正在播放的音视频流进行录音获取多段时长录音片段,然后提取该录音片段的声音指纹;
S5:录音片段声纹匹配步骤将多段时长录音片段的声音指纹与所述声纹库中的声音指纹进行声纹匹配;匹配后,获取该正在播放的音视频流的内容ID;
S6:识别结果推送步骤基于内容ID从所述电视媒资库中查找到直播频道或点播节目后,再以采样时长的特征参数匹配到该时长对应的直播频道片段或点播节目片段,获得的带有识别结果的直播频道或点播节目片段推送给手机端;
S7:短视频获取步骤手机端获取所述直播频道或点播节目片段;
S8:短视频编辑发布步骤为所述短视频编辑标题并添加话题或标签后即可发布及分享。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于彩云之端文化传媒(北京)有限公司,未经彩云之端文化传媒(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811185574.5/1.html,转载请声明来源钻瓜专利网。