[发明专利]一种语音识别方法、装置、系统以及语言交换系统有效

申请号：	201510081322.8	申请日：	2015-02-15
公开（公告）号：	CN104637482A	公开（公告）日：	2015-05-20
发明（设计）人：	孔繁泽	申请（专利权）人：	孔繁泽
主分类号：	G10L15/26	分类号：	G10L15/26
代理公司：	北京市合德专利事务所 11244	代理人：	王文会;刘榜美
地址：	100080 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音识别方法装置系统以及语言交换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别技术，特别是涉及用于语音识别的方法、装置、系统以及实现从一种语言到另一种语言的语言交换的系统。

背景技术

语音识别的研究始于20世纪50年代，1952年的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年，采用数字计算机识别英文元音和孤立词，从此开始了计算机语音识别，60年代，语音结束点的端点检测以及动态编程，使语音识别水平明显上升， 70年代在提出信号线性预测编码(LPC)技术和动态时间规整(DTW)技术，有效地解决了语音信号的特征提取和不等长语音匹配问题的同时，矢量量化(VQ)和隐马尔可夫模型(HMM)理论也进入实验应用领域，80年代 HMM模型和人工神经网络(ANN)在语音识别中成功应用，通过VQ/I-IMM方法实现了高性能的非特定人、大词汇量、连续语音识别系统。进入90年代后，语音识别技术进一步成熟，IBM开发的 ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。进入21世纪，嵌入式语音处理技术发展迅速。基于语音识别芯片的嵌入式硬件产品，如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等，得到广泛应用。IBM的Viavoice和Microsoft的SAPI以及开源架构HTK，都是面向非特定人、大词汇量的连续语音识别系统。

目前各商业机构利用上述科学成果的实践过程中，语音信号识别准确率是关键指标。目前主流的语音识别技术是基于统计模式识别，一个完整的语音识别大致分为以下三个步骤：

（1）语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列；

（2）声学模型与模式匹配（识别算法）：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果；

（3）语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。

这其中声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。随着识别精度的提高需要呈几何级数增长的系统词汇量，系统词汇的编码长度往往要达到18至22位长度，这就必然导致语音、语义识别的反应速度受限于计算机处理能力，也会使得采用不同语音、语言特征建立的识别系统间无法交流和交换。基于现有声学模型会使得识别系统对硬件要求极高，识别准确率受底层模型影响与响应时间和制造成本呈正相关。

发明内容

本发明的目的是提供一种语音识别装置，解决现有声学模型下，语音识别效率和准确性无法进步的技术问题。

本发明提供了一种语音识别装置，包括：

音素存储单元（001），用于存储第一语言音素特征数据；

音素转换单元（002），用于将接收的音素信号序列通过第一语言音素特征数据转换为第一语言音素；

数字编码单元（003），用于为第一语言音素进行唯一编码，形成第一语言音素编码序列；利用第一语言音素编码序列形成第一语言的字发音编码序列和词汇发音编码序列；

字词存储单元（004），用于存储第一语言的字、词汇或图形及所对应的编码序列；

字词转换单元（005），用于根据编码序列的对应关系生成第一语言的字、词汇、图形和/或其组合。

本发明还提供了一种语音识别系统，包括上述的语音识别装置，还包括音频输入装置（103）和语义分析装置（104），其中：

音频输入装置（103），用于采集人声频率范围中的声源，识别人声中的音素信号序列；

所述语音识别装置（101），用于将音素信号序列通过第一语言音素特征数据转换为第一语言音素，通过相应编码序列转换为第一语言的字、词汇、图形和/或其组合；

语义分析装置（104），用于接收第一语言的字、词汇、图形和/或其组合，进行语义判断，过滤其中的备选数据，形成与声源附带信息一致的文字形式或图形形式。