[发明专利]语音识别方法、系统及终端在审

申请号：	202310204481.7	申请日：	2023-02-27
公开（公告）号：	CN116229940A	公开（公告）日：	2023-06-06
发明（设计）人：	王涛	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/26;G10L19/16;G10L25/48;G06N3/0455;G06N3/08;G06F18/21;G06F18/2431
代理公司：	上海专利商标事务所有限公司 31100	代理人：	钱孟清
地址：	310023 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法系统终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音识别方法，包括：

接收待识别语音；

对所述待识别语音进行声学特征提取并进行编码；

使用拼音解码器对经编码的声学特征进行解码以输出拼音；以及

使用汉字解码器对经编码的声学特征进行解码以输出汉字，其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上，

其中所述方法进一步包括：

对所述拼音解码器的性能进行评估；以及

在所述拼音解码器的性能被评估为满足要求之前，至少部分地使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音。

2.如权利要求1所述的方法，其中所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。

3.如权利要求1所述的方法，其中对所述拼音解码器的性能进行评估进一步包括：

将从字典获取的拼音与所述经训练的拼音解码器的相应输出结果进行对照；以及

如果从字典获取的拼音在所述拼音解码器所输出的多个候选结果中的排序处于概率最高的前阈值数量个候选结果之内，则将所述拼音解码器的性能评估为满足要求。

4.如权利要求1所述的方法，其中使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音进一步包括：

对用于训练的语料音频文本对执行对齐，以逐汉字地对音频划界并与文本中的对应汉字对齐；

通过查字典获取与文本中的汉字对应的真实拼音；以及

将所获取的真实拼音通过嵌入叠加在输入给所述汉字解码器的对应的经编码的声学特征上。

5.如权利要求1所述的方法，其中所述方法进一步包括：

在所述拼音解码器的性能满足要求之后，在训练所述汉字解码器时将部分从字典获取的拼音替换为由所述拼音解码器输出的拼音。

6.如权利要求1所述的方法，其中将拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上进一步包括：

将拼音转换成one-hot编码；以及

将与汉字对应的one-hot编码叠加在输入给所述汉字解码器的经编码的声学特征上。

7.如权利要求1所述的方法，其中使用汉字解码器对经编码的声学特征进行解码以输出汉字进一步包括：

在汉字解码器的输出结果中，针对相似发音进行概率平滑。

8.如权利要求1所述的方法，其中所述拼音被进一步拆分为声母和韵母。

9.一种语音识别系统，包括：

接收模块，所述接收模块被配置成接收待识别语音；

特征提取模块，所述特征提取模块被配置成对所述待识别语音进行声学特征提取并进行编码；

拼音解码器，所述拼音解码器被配置成对经编码的声学特征进行解码以输出拼音，其中在所述拼音解码器的性能被评估为满足要求之前，至少部分地使用与所述声学特征对应的真实拼音代替所述拼音解码器输出的拼音；以及

汉字解码器，所述汉字解码器被配置成对经编码的声学特征进行解码以输出汉字，其中将所述拼音解码器输出的拼音通过嵌入叠加在输入给所述汉字解码器的经编码的声学特征上。

10.如权利要求9所述的语音识别系统，其中所述拼音解码器和所述汉字解码器作为一个整体端对端地训练而成。

11.如权利要求9所述的语音识别系统，其中将拼音通过嵌入进一步包括：

将拼音转换为one-hot编码；以及

将与汉字对应的one-hot编码叠加到所述汉字解码器的输入。

12.如权利要求9所述的语音识别系统，其中所述汉字解码器的输出结果中针对相似发音进行概率平滑。

13.如权利要求9所述的语音识别系统，其中所述拼音被进一步拆分为声母和韵母。

14.一种终端，包括：

如权利要求9-13中任意一项所述的语音识别系统。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于支付宝（杭州）信息技术有限公司，未经支付宝（杭州）信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310204481.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种便于安装和拆卸的镀锌电缆桥架
下一篇：基于通道信息和全局信息互补的无监督行人重识别方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别方法、系统及终端在审

专利文献下载