[发明专利]语音识别方法、系统及终端在审

申请号：	202310204481.7	申请日：	2023-02-27
公开（公告）号：	CN116229940A	公开（公告）日：	2023-06-06
发明（设计）人：	王涛	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/26;G10L19/16;G10L25/48;G06N3/0455;G06N3/08;G06F18/21;G06F18/2431
代理公司：	上海专利商标事务所有限公司 31100	代理人：	钱孟清
地址：	310023 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法系统终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种语音识别方法、系统及终端，其中方法可包括：接收待识别语音；对所述待识别语音进行声学特征提取并进行编码；使用拼音解码器对经编码的声学特征进行解码以输出拼音；以及使用汉字解码器对经编码的声学特征进行解码以输出汉字，其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上，其中所述方法进一步包括：对所述拼音解码器的性能进行评估；以及在所述拼音解码器的性能被评估为满足要求之前，至少部分地使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音。

技术领域

本发明主要涉及语音识别技术，更具体地，涉及语音识别方法、系统及终端。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)。随着人工智能技术的发展，语音识别技术也取得了长足进步，其中端到端(end to end)语音识别(e2e-asr)是近年来开发的一种区别于传统语音识别的框架，并逐渐成为一种趋势。传统语音识别一般分为声学模型与语言模型，声学模型负责将音频序列转化为音素序列，常见的音素比如汉语拼音、英文音标等，语言模型则负责将这些音素序列转化成文字序列。声学模型和语言模型在训练时并不需要耦合，可以独立训练，传统语音模型的劣势在于需要有发音字典，需要有音素的标注。

与传统语音识别不同，端到端语音识别系统直接将音频序列转化为文字序列。然而，目前的直接对文字进行建模的端到端语音识别系统，存在较多的非近音字的替换错误。一个语音识别系统的非近音字错误越多，该语音识别系统的声学性能就越差，用户体验也越差。

发明内容

为解决上述技术问题，本公开提供了一种语音识别方法和系统，相对于现有的中文端到端语音识别系统，本公开的系统除了用的编码器以及汉字解码器外，增加一个拼音解码器，并且将拼音解码器的输出作为一种特征叠加到汉字解码器的输入上，能够有效改善非近音字替换错误。

在本公开的一方面，提供了一种语音识别方法，包括：接收待识别语音；对所述待识别语音进行声学特征提取并进行编码；使用拼音解码器对经编码的声学特征进行解码以输出拼音；以及使用汉字解码器对经编码的声学特征进行解码以输出汉字，其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上，其中方法进一步包括：对拼音解码器的性能进行评估；以及在拼音解码器的性能被评估为满足要求之前，至少部分地使用与声学特征对应的真实拼音代替拼音解码器输出的拼音。

根据本公开的进一步实施例，所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。

根据本公开的进一步实施例，对所述拼音解码器的性能进行评估进一步包括：将从字典获取的拼音与所述经训练的拼音解码器的相应输出结果进行对照；以及如果从字典获取的拼音在所述拼音解码器所输出的多个候选结果中的排序处于概率最高的前阈值数量个候选结果之内，则将所述拼音解码器的性能评估为满足要求。

根据本公开的进一步实施例，使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音进一步包括：对用于训练的语料音频文本对执行对齐，以逐汉字地对音频划界并与文本中的对应汉字对齐；通过查字典获取与文本中的汉字对应的真实拼音；以及将所获取的真实拼音通过嵌入叠加在输入给所述汉字解码器的对应的经编码的声学特征上。

根据本公开的进一步实施例，所述方法进一步包括：在所述拼音解码器的性能满足要求之后，在训练所述汉字解码器时将部分从字典获取的拼音替换为由所述拼音解码器输出的拼音。

根据本公开的进一步实施例，将拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上进一步包括：将拼音转换成one-hot编码；以及将与汉字对应的one-hot编码叠加在输入给所述汉字解码器的经编码的声学特征上。

根据本公开的进一步实施例，使用汉字解码器对经编码的声学特征进行解码以输出汉字进一步包括：在汉字解码器的输出结果中，针对相似发音进行概率平滑。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于支付宝（杭州）信息技术有限公司，未经支付宝（杭州）信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310204481.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种便于安装和拆卸的镀锌电缆桥架
下一篇：基于通道信息和全局信息互补的无监督行人重识别方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别方法、系统及终端在审

专利文献下载