[发明专利]语音识别方法、装置、存储介质及电子设备在审
申请号: | 201811060707.6 | 申请日: | 2018-09-12 |
公开(公告)号: | CN108986789A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 陈浩 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/26;G10L25/24;G06K9/62 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 臧云霄;钟宗 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征矩阵 样本语音 语音识别 存储介质 电子设备 分类模型 目标语音 归一化 集合 支持向量机算法 语音特征提取 梅尔频率 语音数据 彩铃 构建 预设 振铃 失败 语言 | ||
本发明提供了一种语音识别方法、装置、存储介质及电子设备,所述语音识别方法包括如下步骤:获取多个样本语音数据;采用梅尔频率倒普系数对每个样本语音数据进行语音特征提取,以得到每个样本语音数据的特征矩阵;按照一预设值构建每个样本语音数据的特征矩阵的大小,以得到归一化的特征矩阵的集合;基于所述归一化的特征矩阵的集合以支持向量机算法建立一分类模型;通过所述分类模型识别目标语音数据。本发明可以准确区分多种语言的目标语音数据,特别是带有彩铃或振铃的外呼呼叫失败的语音数据。
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音识别方法、装置、存储介质及电子设备。
背景技术
一般而言,呼叫中心每天有大量的呼叫语音数据,其中有很多是外呼呼叫失败的语音数据。目前运营商给出的失败信令比较笼统,如关机、拒接、空号、停机、无人接听、占线等信令一致,无法区分真正原因,容易造成业务无效的号码被反复拨打,影响效率。因此需要一个策略找出这些呼叫失败语音的失败原因。
目前现有的做法是采用ASR(Automatic Speech Recognition,自动语音识别)语音识别方法,此方法是基于语义的。像关机、占线、空号和停机这几种的外呼语音,因为每次播报的语音都是相同的,ASR可以很好的识别出这几种的失败原因。但ASR有两个致命的缺陷,即多语言种类支持有限且成本很高及无法识别语音中带有彩铃和振铃情况。随着业务的拓展,常会遇到很多外文的语音数据和语音中带有彩铃和振铃的语音数据,现有技术已经难以满足需求此种情形下的语音识别需求。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种语音识别方法、装置、电子设备及存储介质,以准确区分多种语言的目标语音数据,特别是带有彩铃或振铃的外呼呼叫失败的语音数据。
根据本发明的一方面提供一种语音识别方法,它包括如下步骤:获取多个样本语音数据;采用梅尔频率倒普系数对每个样本语音数据进行语音特征提取,以得到每个样本语音数据的特征矩阵;按照一预设值构建每个样本语音数据的特征矩阵的大小,以得到归一化的特征矩阵的集合;基于所述归一化的特征矩阵的集合以支持向量机算法建立一分类模型;通过所述分类模型识别目标语音数据。
在本发明的一实施方式中,所述样本语音数据被划分为第一语音数据和第二语音数据,所述样本语音数据的种类作为所述分类模型的分类输出。
在本发明的一实施方式中,通过对所述第一语音数据和第二语音数据中数量较多的一种语音数据进行采样,以使得所述第一语音数据和第二语音数据的数量相同。
在本发明的一实施方式中,所述第一语音数据和所述第二语音数据被分别标记为拒接语音数据及无人接听语音数据。
在本发明的一实施方式中,所述第一语音数据和第二语音数据包括彩铃或振铃。
在本发明的一实施方式中,所述特征矩阵的集合中的各特征矩阵被构建以指示每一样本语音数据的后n秒语音数据,n为大于等于5小于等于15的整数。
在本发明的一实施方式中,基于n的取值使所说预设值为[1,M],M为大于等于1的整数,所述按照一预设值构建每个样本语音数据的特征矩阵的大小的步骤包括:
将每个样本语音数据的特征矩阵的大小构建为[1,M],其中M为该特征矩阵的列数。
在本发明的一实施方式中,所述将每个样本语音数据的特征矩阵的大小构建为[1,M]的步骤包括:
若所述样本语音数据的特征矩阵的大小超过[1,M],则截取该样本语音数据的特征矩阵中的后M列,使其大小为[1,M];
若所述样本语音数据的特征矩阵的大小小于[1,M],则用使该样本语音数据的特征矩阵前项填充为0,使其大小为[1,M]。
在本发明的一实施方式中,n为10秒,M为17381。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811060707.6/2.html,转载请声明来源钻瓜专利网。