[发明专利]语音识别方法、装置及相关系统和设备在审

专利信息
申请号: 201911159480.5 申请日: 2019-11-22
公开(公告)号: CN112837675A 公开(公告)日: 2021-05-25
发明(设计)人: 张仕良;刘媛;雷鸣 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G10L15/00 分类号: G10L15/00;G10L15/183;G10L15/26;G10L25/51
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 钱秀茹
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 识别 方法 装置 相关 系统 设备
【说明书】:

本申请公开了语音识别方法、装置、相关系统及设备,词库构建方法、装置及设备。其中,语音识别方法包括:通过多语种声学模型,确定多语种混合语音数据的候选发音单元序列;根据第一对应关系集、第二对应关系集和第三对应关系集,确定与候选发音单元序列中第二语种发音单元对应的第一语种文本,形成语音数据的候选的第一语种文本序列;通过第一语种的语言模型,确定候选的第一语种文本序列的第一语种语言得分;根据第一语种语言得分和第三对应关系集,确定与语音数据对应的多语种混合文本序列。采用这种处理方式,使得在第一语种空间解码的方式进行多语种混读语音识别;因此,可以有效提升多语种混合语音识别的准确度。

技术领域

本申请涉及数据处理技术领域,具体涉及语音交互系统、方法和装置,语音转写系统、方法和装置,语音识别方法和装置,词库构建方法和装置,点餐设备,智能音箱,终端设备,以及电子设备。

背景技术

随着人工智能时代的到来,一个显著的变化是越来越多的智能物联网(IoT)设备出现在日常生活中,如智能音箱、智能电视、地铁语音购票机、点餐机等等。智能IoT设备的出现极大地方便人们的日常生活,同时也提出一个问题:如何更加便捷地和这些设备进行交互。语音交互是人和人之间最便捷的交互方式,所以关于如何和IoT设备进行交互,也可选择语音交互。

对于一个智能的语音交互系统,可以通过语音识别,语义理解,语音合成等模块来完成用语音指令来控制智能设备,从而可以替代传统的手动操作。在这个链路中,语音识别是核心技术模块之一,其功能是将人的语音转化成设备可以识别的文本。关于语音识别的研究由来已久,但是直到2009年深度神经网络在语音识别中的应用,才使得语音识别系统的性能获得极大提升,开始慢慢走向实用化。

多语种混读(如中英文混读)语音识别是目前常见的语音识别现象。目前的语音识别系统通常采用联合声学模型得分和语言模型得分的解码方法(WFST)进行多语种语音识别,其中声学模型和语言模型均基于多语种混合语料训练得到。该系统首先通过声学模型识别到待识别语音数据的可能的发音单元序列,然后再通过语言模型确定各个发音单元序列对应的多个文本序列的语言得分,将语言得分大的文本序列作为语音识别结果。

然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:由于声学模型和语言模型的训练数据的稀缺,因此声学模型和语言模型的准确度有限,在这种情况下,目前中英混读的语音,特别是大段中文中插入英文单词,很容易被误识别。例如,待识别语音为“今天我很happy”,通过声学模型输出的发音单元序列为“jin tian wo henhappy”,但是由于语言模型的文本训练数据中没有类似“今天我很happy”的数据,因此该发音单元序列对应的文本序列“今天我很happy”的语言模型得分较低,因而无法将该文本序列作为待识别语音的文本序列。综上所述,现有技术存在由于语言模型训练数据有限导致语言模型正确度较低,进而导致中英混读语音识别里语言模型得分回退,从而导致无法正确识别多语种混合语音的问题。

发明内容

本申请提供语音交互系统,以解决现有技术存在的无法正确识别多语种混合语音的问题。本申请另外提供语音转写系统、方法和装置,语音识别方法和装置,词库构建方法和装置,点餐设备,智能音箱,终端设备,以及电子设备。

本申请提供一种语音识别方法,包括:

构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集;以及,构建第一语种的语言模型;

通过多语种声学模型,确定待识别的多语种混合语音数据的候选发音单元序列;

根据所述第一对应关系集、第二对应关系集和第三对应关系集,确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本,形成所述语音数据的候选的第一语种文本序列;

通过所述语言模型,确定所述候选的第一语种文本序列的第一语种语言得分;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911159480.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top