[发明专利]视频节目识别方法、相关装置、设备和系统有效
申请号: | 201711180259.9 | 申请日: | 2017-11-22 |
公开(公告)号: | CN108322770B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 郭恺懿 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04N21/233 | 分类号: | H04N21/233;H04N21/439;H04N21/44;G10L17/06;G10L17/04 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 节目 识别 方法 相关 装置 设备 系统 | ||
1.一种视频节目识别方法,其特征在于,包括:
接收视频节目中5-10秒的一段音频信息,所述音频信息包括语音信息;
计算所述语音信息的声纹特征;
根据视频数据库存储的声纹特征模型识别与所述声纹特征匹配的目标声纹特征模型;其中,匹配的所述目标声纹特征模型对应的人物信息为目标人物信息;所述视频数据库存储有至少两个声纹特征模型,每个声纹特征模型唯一对应一个人物信息;
从视频数据库中查找与所述目标人物信息关联的视频节目;所述视频数据库存储有人物信息以及与人物信息关联的视频节目;
将从所述音频信息中提取出的语音内容的声学特征与所述目标人物信息关联的视频节目对应的语音内容的声学特征进行匹配,所述目标人物信息关联的视频节目中匹配成功的声学特征为目标语音内容的声学特征;将所述目标语音内容的声学特征对应的视频节目确定为目标视频节目;
在计算出至少两个声纹特征的情况下,所述根据所述视频数据库存储的声纹模型识别与所述声纹特征匹配的目标声纹模型包括:
根据所述视频数据库存储的声纹模型识别与第一声纹特征匹配的目标声纹模型;所述第一声纹特征为在所述语音信息的时长中占比最大的声纹特征。
2.如权利要求1所述的方法,其特征在于,所述接收视频节目中的音频信息之前,还包括:
采集多个视频节目的音频信息;
分析所述多个视频节目的音频信息,获得每个视频节目关联的人物信息,以及每个视频节目的语音内容的声学特征;
建立声学特征列表,将所述声学特征列表存储在视频数据库中;所述声学特征列表包括每个人物信息各自关联的视频节目,以及所述人物信息在每个视频节目中对应的语音内容的声学特征。
3.如权利要求2所述的方法,其特征在于,所述获得每个视频节目的语音内容的声学特征之后,还包括:
利用所述语音内容的声学特征进行模型训练,建立多个声纹特征模型;其中,每个声纹特征模型唯一对应一个人物信息。
4.如权利要求1所述的方法,其特征在于,在确定目标视频节目之后,还包括:
获取所述目标视频节目的咨询信息;所述咨询信息包括以下至少一项:
简介信息、人物列表信息、花絮信息、评论信息、集数信息、完整视频节目链接信息、与所述目标视频节目相匹配的视频节目信息。
5.如权利要求4所述的方法,其特征在于,所述获取所述目标视频节目的咨询信息之后,还包括:
将所述咨询信息发送给目标终端;所述目标终端为发送了所述视频节目中的音频信息的终端。
6.一种视频节目识别方法,其特征在于,包括:
接收输入的视频节目识别指令;
根据所述视频节目识别指令采集视频节目中5-10秒的一段音频信息,所述音频信息包括语音信息;
将所述音频信息发送给视频节目识别设备;以使所述视频节目识别设备根据如权利要求1-5任一项所述的方法识别查找到目标视频节目;
接收并显示所述视频节目识别设备发送的所述目标视频节目的信息。
7.一种视频节目识别装置,其特征在于,包括用于执行如权利要求1-5任一项所述的方法的单元。
8.一种终端,其特征在于,包括用于执行如权利要求6所述的方法的单元。
9.一种视频节目识别设备,其特征在于,包括处理器、输入设备、输出设备、存储器和通信设备,所述处理器、输入设备、输出设备、存储器和通信设备相互连接,其中,所述存储器用于存储应用程序代码,所述通信设备用于与外部设备进行信息交互;所述处理器被配置用于调用所述程序代码,执行如权利要求1-5任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711180259.9/1.html,转载请声明来源钻瓜专利网。