[发明专利]一种服务机器人语音识别方法有效
申请号: | 201810886913.6 | 申请日: | 2018-08-06 |
公开(公告)号: | CN108847238B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 王斐;刘鑫;丁鹏 | 申请(专利权)人: | 东北大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L15/30;G10L15/08;G10L21/0208;G10L21/0272;G10L25/30 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 陈玲玉;梅洪玉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务 机器人 语音 识别 方法 | ||
1.一种服务机器人语音识别方法,其特征在于,包括如下步骤:
步骤1、收集数据,获取机器人多个服务对象的纯净声音流和混合声音流;
步骤2、对语音数据进行标签化,将不同对象的纯净声音流和混合声音流分别设置不同标签;
步骤3、搭建RNN神经网络、设定网络结构;该网络有四层,由输入层、两个隐含层、输出层构成,其中输入层节点个数为i,隐含层节点个数为h,输出层节点个数为o;该循环神经网络(RNN)的输入输出特征是短时傅里叶变换后的能量谱,有两个隐藏层且隐藏层的激活函数选择RELU函数,损失函数定义为:
…表示RNN模型在时刻t的输出,y1t、y2t…为t时刻的纯净人声,γ12、γ13…为给定的常数项;
步骤4、对多个服务对象的纯净声音流和混合声音流进行短时傅里叶变换处理,并输入到RNN网络进行训练,具体步骤如下:
步骤4.1、初始化RNN神经网络参数,设定网络的连接权值和阈值初始化为[-0.30,+0.30]之间的随机值;并设定权值的学习速率为[0,1]范围之间的点值;
步骤4.2、根据k-1时刻对混合声音做短时傅里叶变换处理后得到的能量谱作为输入数据,由输入层到隐含层节点的权值和隐藏层之间的权值,得到输出层的输出值,并将输出值与期望值y比较,算出损失函数,进而更新k时刻输入层到隐含层节点的权值和隐藏层之间的权值,以及RNN基本单元之间的权值;
步骤4.3、设置停止训练的总误差阈值,判断获得的预测值的总误差是否大于设置的总误差阈值,若是,则根据总误差值,调整隐含层节点到输出层节点的区间权值,输入层节点到隐含层节点的区间权值,以及RNN基本单元之间的权值,否则,完成RNN神经网络的训练;
步骤5、利用训练好的RNN神经网络完成对多个对象的混合声音流的语音分离工作;
还包括利用SVM模型实现文本滤除,具体包括如下步骤:
步骤1、收集数据,获得人机对话的文本素材;
步骤2、对文本数据进行标签化,分为正、负两种样本,正样本为正常文本;负样本为插入语文本;
步骤3、对环境中的声音进行监听,如果没有声音则监听继续,否则对声音进行截取,声音截取的方法采用基于短时能量和短时过零率的声音端点检测方法;
步骤4、对截取到的声音进行语音识别,得到该段声音的对应文本;
步骤5、搭建SVM模型对文本数据进行二分类,具体步骤如下:
步骤5.1、对全部训练文档进行分词,分词方法采用jieba分词方法;
步骤5.2、分别统计正、负样本中出现的词语及其频率,然后过滤,剔除停用词和单字词;
步骤5.3、分别统计正、负样本中出现词语的词频,并取其中的若干个频率最高的词汇作为这一类别的高频词集;
步骤5.4、去除正、负样本中都出现的高频词,合并正负样本的高频词,得到总高频词集,即特征集合;
步骤5.5、将特征集合映射到词向量集合,利用该词向量集合训练SVM,得到训练模型;
步骤6、利用训练好的SVM完成对人机对话文本的输出值预测,如果SVM的预测值是正常文本,则对其进行响应,否则,放弃响应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810886913.6/1.html,转载请声明来源钻瓜专利网。