[发明专利]语音识别方法、装置及相关系统和设备在审
申请号: | 201911159480.5 | 申请日: | 2019-11-22 |
公开(公告)号: | CN112837675A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 张仕良;刘媛;雷鸣 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/183;G10L15/26;G10L25/51 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 钱秀茹 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 相关 系统 设备 | ||
本申请公开了语音识别方法、装置、相关系统及设备,词库构建方法、装置及设备。其中,语音识别方法包括:通过多语种声学模型,确定多语种混合语音数据的候选发音单元序列;根据第一对应关系集、第二对应关系集和第三对应关系集,确定与候选发音单元序列中第二语种发音单元对应的第一语种文本,形成语音数据的候选的第一语种文本序列;通过第一语种的语言模型,确定候选的第一语种文本序列的第一语种语言得分;根据第一语种语言得分和第三对应关系集,确定与语音数据对应的多语种混合文本序列。采用这种处理方式,使得在第一语种空间解码的方式进行多语种混读语音识别;因此,可以有效提升多语种混合语音识别的准确度。
技术领域
本申请涉及数据处理技术领域,具体涉及语音交互系统、方法和装置,语音转写系统、方法和装置,语音识别方法和装置,词库构建方法和装置,点餐设备,智能音箱,终端设备,以及电子设备。
背景技术
随着人工智能时代的到来,一个显著的变化是越来越多的智能物联网(IoT)设备出现在日常生活中,如智能音箱、智能电视、地铁语音购票机、点餐机等等。智能IoT设备的出现极大地方便人们的日常生活,同时也提出一个问题:如何更加便捷地和这些设备进行交互。语音交互是人和人之间最便捷的交互方式,所以关于如何和IoT设备进行交互,也可选择语音交互。
对于一个智能的语音交互系统,可以通过语音识别,语义理解,语音合成等模块来完成用语音指令来控制智能设备,从而可以替代传统的手动操作。在这个链路中,语音识别是核心技术模块之一,其功能是将人的语音转化成设备可以识别的文本。关于语音识别的研究由来已久,但是直到2009年深度神经网络在语音识别中的应用,才使得语音识别系统的性能获得极大提升,开始慢慢走向实用化。
多语种混读(如中英文混读)语音识别是目前常见的语音识别现象。目前的语音识别系统通常采用联合声学模型得分和语言模型得分的解码方法(WFST)进行多语种语音识别,其中声学模型和语言模型均基于多语种混合语料训练得到。该系统首先通过声学模型识别到待识别语音数据的可能的发音单元序列,然后再通过语言模型确定各个发音单元序列对应的多个文本序列的语言得分,将语言得分大的文本序列作为语音识别结果。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:由于声学模型和语言模型的训练数据的稀缺,因此声学模型和语言模型的准确度有限,在这种情况下,目前中英混读的语音,特别是大段中文中插入英文单词,很容易被误识别。例如,待识别语音为“今天我很happy”,通过声学模型输出的发音单元序列为“jin tian wo henhappy”,但是由于语言模型的文本训练数据中没有类似“今天我很happy”的数据,因此该发音单元序列对应的文本序列“今天我很happy”的语言模型得分较低,因而无法将该文本序列作为待识别语音的文本序列。综上所述,现有技术存在由于语言模型训练数据有限导致语言模型正确度较低,进而导致中英混读语音识别里语言模型得分回退,从而导致无法正确识别多语种混合语音的问题。
发明内容
本申请提供语音交互系统,以解决现有技术存在的无法正确识别多语种混合语音的问题。本申请另外提供语音转写系统、方法和装置,语音识别方法和装置,词库构建方法和装置,点餐设备,智能音箱,终端设备,以及电子设备。
本申请提供一种语音识别方法,包括:
构建第一语种词与第一语种发音之间的第一对应关系集、第二语种词与第二语种发音之间的第二对应关系集、第一语种词与至少一个第二语种词之间的第三对应关系集;以及,构建第一语种的语言模型;
通过多语种声学模型,确定待识别的多语种混合语音数据的候选发音单元序列;
根据所述第一对应关系集、第二对应关系集和第三对应关系集,确定与所述候选发音单元序列中第二语种发音单元对应的第一语种文本,形成所述语音数据的候选的第一语种文本序列;
通过所述语言模型,确定所述候选的第一语种文本序列的第一语种语言得分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911159480.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:定位方法、装置、系统、设备和存储介质
- 下一篇:一种执行对象的数量处理系统