[发明专利]一种针对讲座视频的时间轴自动产生方法在审
申请号: | 201410423661.5 | 申请日: | 2014-08-26 |
公开(公告)号: | CN104159145A | 公开(公告)日: | 2014-11-19 |
发明(设计)人: | 程国艮;袁翔宇;王宇晨 | 申请(专利权)人: | 中译语通科技(北京)有限公司 |
主分类号: | H04N21/434 | 分类号: | H04N21/434;H04N21/435;H04N21/80;G11B27/10 |
代理公司: | 北京知本村知识产权代理事务所 11039 | 代理人: | 周自清 |
地址: | 100040 北京市石景山区八*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种针对讲座视频的时间轴自动产生方法,包括以下步骤:第一步,扫描一遍视频,通过小波变换和自相关函数法检测出基音频率;第二步,寻找基音频率的平均值µ和标准差σ,作为讲话人的基因频率;第三步,根据基音频率,进行初划分,划分为时间轴单元;第四步,对于每一个时间轴单元,计算其基音频率相似性A及频谱相似性B,对于A,B取两个阈值,当A和B均大于这两个阈值时,认为是演讲人在说话,排除非演讲人说话的时间轴,得到的时间轴为演讲人说话的时间轴。本发明是一种针对视频讲座可以自动产生出高精度的讲座视频时间轴的方法。 | ||
搜索关键词: | 一种 针对 讲座 视频 时间 自动 产生 方法 | ||
【主权项】:
一种针对讲座视频的时间轴自动产生方法,其特征在于,包括以下步骤:第一步,扫描一遍视频,通过小波变换和自相关函数法检测出基音频率;第二步,寻找基音频率的平均值µ和标准差σ,作为讲话人的基因频率;第三步,根据基音频率,进行初划分,划分为时间轴单元;第四步,对于每一个时间轴单元,计算其基音频率相似性A及频谱相似性B,所述频率相似性A,既是该时间轴的基音平均频率,在以第二步计算得到的,基音频率的平均值µ和标准差σ所得到的正态分布上,所出现的概率;所述频谱相似性B的计算方式如下:每个时间轴由N帧组成,计算每一帧与前一帧的基因频率差的平均值D;取一个阈值K,当D<K时,B = 1,当D>K时,B按线性衰减;对于A,B取两个阈值,当A和B均大于这两个阈值时,认为是演讲人在说话,排除非演讲人说话的时间轴,得到的时间轴为演讲人说话的时间轴。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技(北京)有限公司,未经中译语通科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410423661.5/,转载请声明来源钻瓜专利网。
- 上一篇:开放式可插拔的转接板
- 下一篇:视频编码方法和视频解码方法及其装置