[发明专利]自动字幕生成系统中语音区间的检测方法有效

申请号：	200810116460.5	申请日：	2008-07-10
公开（公告）号：	CN101625862A	公开（公告）日：	2010-01-13
发明（设计）人：	李祺;马华东;郑侃彦;韩忠涛;张婷	申请（专利权）人：	新奥特（北京）视频技术有限公司
主分类号：	G10L11/02	分类号：	G10L11/02;H04N5/278
代理公司：	北京天悦专利代理事务所	代理人：	田明;任晓航
地址：	100080北京市海淀区西草场***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种自动字幕生成系统中语音区间的检测方法。该方法将音频采样序列分成固定长度的帧，计算每一帧的短时能频值，并形成一个短时能频值序列；从第一帧数据开始，分析短时能频值序列，寻找短时能频值序列的上升区间或下降区间；通过计算短时能频值序列波形的平均斜率，并与门限值进行比较，确定语音的起点或终点，最终完成对语音区间的检测。本发明可以在背景噪声经常发生变化的情况下，对连续语音进行语音端点检测，从而提高在复杂噪声背景下的语音端点检测效率。
搜索关键词：	自动字幕生成系统语音区间检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种自动字幕生成系统中语音区间的检测方法，包括如下步骤：(1)将音频采样序列分成固定长度的帧，计算音频文件中每一帧的短时能频值，形成一个短时能频值序列：X1X2X3X4......Xn；(2)从第一帧开始依次分析短时能频值序列，设当前所分析的为第t帧，检测第t帧之后每一帧的短时能频值，直至找到一帧j，使得Xt≤Xt+1≤Xt+2≤......≤Xj且Xj+1≥Xj+2即寻找从第t帧开始的短时能频值序列的上升区间，记为At；(3)计算所找到的上升区间At的短时能频值序列波形的平均斜率Rt：

<mrow> <msub> <mi>R</mi> <mi>t</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> </mrow> <mrow> <mi>j</mi> <mo>-</mo> <mi>t</mi> </mrow> </mfrac> </mrow>

其中，Xt为第t帧的短时能频值，Xj为第j帧的短时能频值；(4)设定一个门限值Rm来确定语音起始点，如果Rt≥Rm，且第t帧之前的区间没有被认为是语音区间，则将第t帧记为语音的起点，然后令t＝j+1，去寻找与之相匹配的语音终点，从而确定一个语音区间；如果Rt＜Rm，则令t＝j+1，重复步骤(2)的操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新奥特（北京）视频技术有限公司，未经新奥特（北京）视频技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200810116460.5/，转载请声明来源钻瓜专利网。

上一篇：多模医学影像信息处理系统及滤波器的实现方法
下一篇：语音端点检测中短时能频值的提取方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L11-00 不限定于G10L 15/00至G10L 21/00单独一组中的语音或音频特征的测定或检测
G10L11-02 .检测有无语音信号
G10L11-04 .语音信号的音调测定
G10L11-06 .语音信号的浊音和清音之间的鉴别

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]自动字幕生成系统中语音区间的检测方法有效

专利文献下载