[发明专利]归一化声学模型的输入数据的设备和方法和语音识别设备有效
申请号: | 201610900674.6 | 申请日: | 2016-10-17 |
公开(公告)号: | CN106601240B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 宋仁哲;崔荣相;罗辉栋 | 申请(专利权)人: | 三星电子株式会社 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/16 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 张川绪;王兆赓 |
地址: | 韩国京畿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 归一化 声学 模型 输入 数据 设备 方法 语音 识别 | ||
1.一种用于归一化声学模型的输入数据的设备,所述设备包括:
窗提取器,被配置为:从将被识别的语音的帧数据,提取将被输入到声学模型的帧数据的窗;
归一化器,被配置为:以提取的窗为单位,归一化将被输入到声学模型的帧数据,
其中,归一化器还被配置为:考虑属于当前窗的之前窗的帧,来归一化属于当前窗的帧。
2.如权利要求1所述的设备,其中,窗提取器还被配置为:在将被识别的语音的帧数据正被输入的同时,以将被识别的语音的帧数据的预定数量的帧为单位,连续地提取窗。
3.如权利要求1所述的设备,其中,归一化器还被配置为:将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。
4.如权利要求1所述的设备,其中,归一化器还被配置为:响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别,考虑属于之前窗的帧和训练数据的帧,来归一化属于当前窗的帧。
5.如权利要求4所述的设备,其中,归一化器还被配置为:响应于帧的总数小于参考值,从训练数据获取与参考值和帧的总数之间的差对应的数量的帧,作为考虑的训练数据的帧。
6.如权利要求1所述的设备,其中,归一化器还被配置为:归一化属于提取的窗的帧数据,使得属于提取的窗的帧数据具有平均值0和标准差1。
7.一种归一化声学模型的输入数据的方法,所述方法包括:
从将被识别的语音的帧数据,提取将被输入到声学模型的帧数据的窗;
以提取的窗为单位,归一化将被输入到声学模型的帧数据,
其中,归一化帧数据的步骤包括:考虑属于当前窗的之前窗的帧,来归一化属于当前窗的帧。
8.如权利要求7所述的方法,其中,提取窗的步骤包括:在将被识别的语音的帧数据正被输入的同时,以将被识别的语音的帧数据的预定数量的帧为单位,连续地提取窗。
9.如权利要求7所述的方法,其中,归一化帧数据的步骤包括:将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。
10.如权利要求7所述的方法,其中,归一化帧数据的步骤包括:响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别,考虑属于之前窗的帧和训练数据的帧,来归一化属于当前窗的帧。
11.如权利要求10所述的方法,其中,归一化帧数据的步骤包括:
响应于当前窗被提取,将属于当前窗和之前窗的帧的总数与参考值进行比较;
响应于帧的总数小于参考值,从训练数据获取与参考值和帧的总数之间的差对应的数量的帧,作为考虑的训练数据的帧。
12.如权利要求7所述的方法,其中,归一化帧数据的步骤包括:归一化属于提取的窗的帧数据,使得属于提取的窗的帧数据具有平均值0和标准差1。
13.一种语音识别设备,包括:
预处理器,被配置为:
从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗,
以提取的窗为单位归一化将被输入到声学模型的帧数据;
声学分数计算器,被配置为:使用基于深度神经网络的声学模型,以归一化的窗为单位,通过将归一化的帧数据输入到所述声学模型中来计算声学分数;
解释器,被配置为:
解释以归一化的窗为单位计算的声学分数,
基于解释的声学分数来输出将被识别的语音的识别结果,
其中,预处理器还被配置为:考虑属于当前窗的之前窗的帧,来归一化属于当前窗的帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610900674.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:个人语音和拼音的对应库
- 下一篇:一种录音文件自动校时方法