[发明专利]声音分段设备和方法以及说话者识别系统有效

申请号：	201110217652.7	申请日：	2011-08-01
公开（公告）号：	CN102915728A	公开（公告）日：	2013-02-06
发明（设计）人：	郭莉莉;穆向禹;刘贺飞	申请（专利权）人：	佳能株式会社
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/14;G10L17/14
代理公司：	中国国际贸易促进委员会专利商标事务所 11038	代理人：	魏小薇
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声音分段设备方法以及说话识别系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及声音分段设备和声音分段方法，以及说话者识别系统。

背景技术

声音分段是将声音序列(音频序列)分段为多个声音段的技术。

声音检测方法通常涉及声音分段处理和声音分类处理两者。

在声音检测方法的一个典型例子中，非静音声音段被检测，并且，每个非静音声音段被分段为多个声音段。然后，对于每个如此获得的声音段，声音分类器对于类别集中的所有声音类别计算分类分数(分类分数表明一个声音段属于一个声音类别的似然性或概率)，并且最终输出具有最大分类分数的声音类别作为对于该声音段的声音检测结果。

声音分段处理常常在声音检测方法中扮演重要的角色，这是因为声音分段处理的性能直接影响声音分类处理的结果因而直接影响声音检测方法的性能。

例如，如果具有不同声音类别的两个或更多个声音段在声音分段处理中被分段为单个声音段，换句话说，如果具有第一声音类别的至少一个声音段在声音分段处理中被埋入在具有第二声音类别的另一个声音段中并且因而被漏检，则与被漏检的声音段对应的第一声音类别当然也在声音分类处理中被漏检，即使声音分类方法本身的性能是高的。

另外，当具有第一声音类别的至少一个声音段在声音分段处理中被埋入在具有第二声音类别的另一个声音段中时，甚至有可能不仅漏检第一声音段，而且包含第一声音类别的声音段和第二声音类别的声音段这两者的声音段被分类到既不是第一类别又不是第二类别的类别中。

为了防止漏检可能的声音段，在美国专利2008/0255854和2006/0212297中提出了一种声音分段方法，在该声音分段方法中，使用不同的声音分段算法而对于单个声音段得到多于一个的候选分割点。然后，该方法除去无效分割点以得到对于该声音段的最终分割结果。

图1示出了美国专利2008/0255854和2006/0212297中的声音分段方法的示意性流程图。

根据图1中所示的该方法，对于声音段的观察窗和起始点(该声音段的起始点可以是在前声音段的结束点)，使用多于一种的声音分段算法(图1中所示的SEG1、SEG2、...SEG N)并且产生候选分割点列表，所述候选分割点列表包括通过这些声音分段算法获得的候选分割点。对于每种所用的声音分段算法，在候选分割点列表中的相应的候选分割点处计算测量值向量。可使用投票方案或似然比测试来去除无效的分割点，并且，剩余的分割点被取作对于当前观察窗的声音段的结束点。在没有可被认为是有效的剩余分割点的情况下，当前观察窗不包含任何分割点，也就是说，未在当前观察窗中观察到该声音段的结束点。

美国专利2008/0255854和2006/0212297的目的是使用不同的声音分段算法来获得多于一个的候选分割点，以防止漏检只用某种分段算法可能不能够获得的实际分割点。

发明内容

然而，本发明的发明人发现，在包括如图1所示的美国专利2008/0255854和2006/0212297中的方法的常规声音分段方法中，观察窗的尺寸是固定的，并且必须被事先决定。如果观察窗尺寸被设置得太大，则一些分割点可能被漏检。另一方面，如果观察窗尺寸被设置得太小，则将有太多观察窗要被处理，尽管这些观察窗中的很多可能根本不包含任何分割点，因此，计算量将相当大。因此，观察窗的尺寸必须被谨慎设置。另外，如果在原始声音序列中包含有非常长的声音段和非常短的声音段两者，则不得不花费大的不必要的计算量来获得正确的声音分段。

因此，需要能够执行正确的声音分段而无需大的不必要的计算量的新的声音分段方法。

为了解决上述的技术问题，本发明提供一种声音分段方法，包括：多级分段步骤，所述多级分段步骤包括：当前声音段分段步骤。所述当前声音段分段步骤包括：确定步骤，确定当前声音段关于分割分数序列是否满足规定条件，所述分割分数序列指示每个候选分割点的信息熵；以及分割步骤，如果确定所述当前声音段满足所述规定条件，则将所述当前声音段分割为至少两个下一级声音段，其中，通过将通过所述分割步骤获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段，以迭代方式执行所述当前声音段分段步骤，直到每一级中的未被分割的声音段都不满足所述规定条件为止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于佳能株式会社，未经佳能株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110217652.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]声音分段设备和方法以及说话者识别系统有效

专利文献下载