[发明专利]归一化声学模型的输入数据的设备和方法和语音识别设备有效

申请号：	201610900674.6	申请日：	2016-10-17
公开（公告）号：	CN106601240B	公开（公告）日：	2021-10-01
发明（设计）人：	宋仁哲;崔荣相;罗辉栋	申请（专利权）人：	三星电子株式会社
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/16
代理公司：	北京铭硕知识产权代理有限公司 11286	代理人：	张川绪;王兆赓
地址：	韩国京畿***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	归一化声学模型输入数据设备方法语音识别
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

提供归一化声学模型的输入数据的设备和方法和语音识别设备。一种用于归一化声学模型的输入数据的设备包括：窗提取器，被配置为从将被识别的语音的帧数据，提取将被输入到声学模型的帧数据的窗；归一化器，被配置为以提取的窗为单位归一化将被输入到声学模型的帧数据。

本申请要求于2015年10月16日提交到韩国知识产权局的第10-2105-0144947号韩国专利申请的权益，该申请的全部公开出于所有目的通过引用包含于此。

技术领域

下面的描述涉及在语音识别中归一化声学模型的用于逐步解码的输入数据的技术。

背景技术

通常，语音识别引擎包括声学模型、语言模型和解码器。声学模型针对输入的语音信号的每一帧计算特定发音的概率，语言模型提供关于特定的单词或句子使用的频率的信息。解码器基于由声学模型和语言模型提供的信息来计算哪个单词或句子与输入语音相似，并且输出计算结果。高斯混合模型(GMM)声学模型已被普遍使用，并且随着深度神经网络(DNN)声学模型的出现，语音识别性能近来正在提高。双向循环深度神经网络(bidirectional recurrent deep neural network，BRDNN)考虑双向信息(即，之前和后续帧信息)，针对语音的每一帧来计算特定发音的概率，并因此接收全部语音。当在模型训练期间输入的语音信号的每一帧被表示为N维矢量时，BRDNN声学模型执行归一化，使得矢量的每一维的值在特定范围内。在归一化可基于全部训练数据或每一话语被总体执行的同时，BRDNN声学模型在话语的单元中执行归一化。

发明内容

提供本发明内容从而以简化的形式介绍将在下面的具体实施方式中被进一步描述的构思的选择。本发明内容不意在标识所要求保护主题的关键特征或必要特征，也不意在作为帮助确定所要求保护的主题的范围而被使用。

在一个总体方面中，一种用于归一化声学模型的输入数据的设备包括：窗提取器，被配置为从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗；归一化器，被配置为以提取的窗为单位归一化将被输入到声学模型的帧数据。

窗提取器还可被配置为：在将被识别的语音的帧数据正被输入的同时，以将被识别的语音的帧数据的预定数量的帧为单位，连续地提取窗。

归一化器还可被配置为：将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。

归一化器还可被配置为：考虑属于当前窗的之前窗的帧，来归一化属于当前窗的帧。

归一化器还可被配置为：响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别，考虑属于之前窗的帧和训练数据的帧，来归一化属于当前窗的帧。

归一化器还可被配置为：响应于帧的总数小于参考值，从训练数据获取与帧的总数与参考值之间的差对应的数量的帧。

归一化器还可被配置为：归一化属于提取的窗的帧数据，使得属于提取的窗的帧数据具有平均值0和标准差1。

在另一总体方面中，一种归一化声学模型的输入数据的方法包括：从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗；以提取的窗为单位，归一化将被输入到声学模型的帧数据。

提取窗的步骤可包括：在将被识别的语音的帧数据正被输入的同时，以将被识别的语音的帧数据的预定数量的帧为单位，连续地提取窗。

归一化帧数据的步骤可包括：将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。