[发明专利]以语音特征为基础的话语识别装置及方法无效

专利信息
申请号: 01124052.0 申请日: 2001-08-08
公开(公告)号: CN1400584A 公开(公告)日: 2003-03-05
发明(设计)人: 卜令楷;阙志达 申请(专利权)人: 韦尔博泰克公司
主分类号: G10L15/00 分类号: G10L15/00
代理公司: 永新专利商标代理有限公司 代理人: 韩宏
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 特征 基础 话语 识别 装置 方法
【说明书】:

技术领域

发明总地涉及自动话语识别(ASR)系统,并更具体涉及可产生一组语音特征的一种元音矢量投射类似性系统和方法。

技术背景

以普通话为准的中文语言中使用了数以万计的单独字符,其每一个字符皆是以单音节的方式发音,从而为ASR系统提供一种独特的基础。然而,普通话(及实际上中文的其他方言)为一种具有以四种词汇音调之一或一自然音调发音的各别字音节的音调语言。存在408个基本音节及考虑到音调变化,总共有1345个不同的音调音节。因此,独特字符的数目约为发音的数十倍,使得发生许多仅可依据话语内容解析的同音字。基本的音节各自包含一辅音(起始音)音素(总共21个)及元音(vowel)(末尾音)音素(总共37个)。常规的ASR系统首先利用不同的处理技术检测辅音音素、元音音素及音调。接着,为了增进识别精确度,选择一组较高可能性的候选音节,及将此组候选音节与最后选择的内容核对。现有技术中已知大部分的话语识别系统主要是依赖元音识别,因为已发现元音比辅音的差异性大。因此,精确的元音识别最能精确进行话语识别。

发明内容

用于对普通话中文语言的输入话语频谱矢量进行精确话语识别的一种装置及方法,其步骤包含有选择一组九个静态(stationary)普通话元音用作为语音特征参考元音,计算在九个静态普通话参考元音的上的输入矢量的投射与相对投射类似性,从这些九个静态普通话元音中选出一组具高投射类似性的元音,从该组高投射类似性元音中,选择其中具有与输入矢量有最高相对投射类似性的静态普通话元音,以及若该组的高投射类似性元音为零(null),则响应于一个投射类似性的量测值,从这些九个静态普通话元音中选择一个元音。

附图简单说明

图1为一个静态的元音″i″与一个非静态的元音″ai″的频谱图。

图2为非静态元音″ai″的频谱以及其美-标度表示。

图3(a)显示沿著一参考矢量c(k)的方向的与一输入矢量x的投射成比例的投射类似性;图3(b)显示在频谱上相似的参考元音″i″与″iu″,其中输入矢量在这些相似的参考元音上的投射类似性都会很高。

图4是为一矢量图,其中显示二维矢量的相对投射类似性。

图5为普通话元音″ai″的语音特征轮廓图,示出了依据本发明的参考元音之间的转变。

图6(a)显示对于元音″i″(暗点)与元音″iu″(淡点)的a(8)(垂直轴)与a(6)(水平轴)的投射类似性。

图6(b)显示对于相同元音的参考频谱,投射类似性的识别度(无相对投射类似性)与本发明的语音特征方案之间的比较。

图7为根据本发明的″iu″的语音特征相对于″i″的语音特征的图形,λ作为一个参数,其随著灰度的增加而具有较大的数值。

具体实现方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于韦尔博泰克公司,未经韦尔博泰克公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/01124052.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top