[发明专利]一种服务机器人语音识别方法有效
申请号: | 201810886913.6 | 申请日: | 2018-08-06 |
公开(公告)号: | CN108847238B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 王斐;刘鑫;丁鹏 | 申请(专利权)人: | 东北大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L15/30;G10L15/08;G10L21/0208;G10L21/0272;G10L25/30 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 陈玲玉;梅洪玉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于语音识别领域,公开了一种服务机器人语音识别方法。本发明的语音对话系统利用语音分离和文本处理,提高了语音对话系统的性能。主要包括以下方面:一、服务机器人语音识别系统在传统语音识别系统的基础上加入了声源分离环节解决了系统对混合声音流的识别问题,二、服务机器人语音识别系统在传统语音识别系统的基础上加入了文本筛选环节解决了系统对“无意义”文本的滤除问题,改善机器人的错误应答率。实验证明服务机器人语音识别系统较传统语音识别系统对混合声音的识别率有很大的提升,对文本的误应答有明显的改善。 | ||
搜索关键词: | 一种 服务 机器人 语音 识别 方法 | ||
【主权项】:
1.一种新型服务机器人语音识别方法,其特征在于,包括如下步骤:步骤1、收集数据,获取机器人多个服务对象的纯净声音流和混合声音流;步骤2、对语音数据进行标签化,将不同对象的纯净声音流和混合声音流分别设置不同标签;步骤3、搭建RNN神经网络、设定网络结构;该网络有四层,由输入层、两个隐含层、输出层构成。网络结构如图1所示,其中输入层节点个数为i,隐含层节点个数为h,输出层节点个数为o;该循环神经网络(RNN)的输入输出特征是短时傅里叶变换后的能量谱,有两个隐藏层且隐藏层的激活函数选择RELU函数,损失函数定义为:表示RNN模型在时刻t的输出,y1t、y2t。。。为t时刻的纯净人声,γ12、γ13。。。为给定的常数项;步骤4、对多个服务对象的纯净声音流和混合声音流进行短时傅里叶变换处理,并输入到RNN网络进行训练,具体步骤如下:步骤4.1、初始化RNN神经网络参数,设定网络的连接权值和阈值初始化为[‑0.30,+0.30]之间的随机值;并设定权值的学习速率为[0,1]范围之间的点值;步骤4.2、根据k‑1时刻对混合声音做短时傅里叶变换处理后得到的振幅谱作为输入数据,由输入层到隐含层节点的权值和隐藏层之间的权值,得到输出层的输出值,并将输出值与期望值y比较,算出损失函数,进而更新k时刻输入层到隐含层节点的权值和隐藏层之间的权值,以及RNN基本单元之间的权值;步骤4.3、设置停止训练的总误差阈值,判断获得的预测值的总误差是否大于设置的总误差阈值,若是,则根据总误差值,调整隐含层节点到输出层节点的区间权值,输入层节点到隐含层节点的区间权值,以及RNN基本单元之间的权值,否则,完成RNN神经网络的训练;步骤5、利用训练好的RNN神经网络完成对多个对象的混合声音流的语音分离工作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810886913.6/,转载请声明来源钻瓜专利网。