[发明专利]语音文本的输出方法及装置、存储介质、电子装置在审

申请号：	202010464302.X	申请日：	2020-05-27
公开（公告）号：	CN113744718A	公开（公告）日：	2021-12-03
发明（设计）人：	苏腾荣;马志芳;李想;赵培	申请（专利权）人：	海尔优家智能科技（北京）有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L25/51
代理公司：	北京康信知识产权代理有限责任公司 11240	代理人：	张丹红
地址：	100086 北京市海淀区知春***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音文本输出方法装置存储介质电子
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音文本的输出方法，其特征在于，包括：

对目标语音进行语音识别，得到基于音素的语音识别结果；

根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；

其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数。

2.根据权利要求1所述的方法，其特征在于，根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本之前，所述方法还包括：

获取已标注正确结果的音素序列，以及发音混淆的N个音素序列；

将所述已标注正确结果的音素序列和所述N个音素序列对齐，以确定用于指示所述每个音素的混淆概率的音素混淆矩阵。

3.根据权利要求1所述的方法，其特征在于，根据预置的音素混淆矩阵对所述语音识别结果进行修正，包括：

将所述语音识别结果和所述音素混淆矩阵进行运算，得到运算结果；

根据运算结果对所述语音识别结果进行修正。

4.根据权利要求3所述的方法，其特征在于，将所述语音识别结果和所述音素混淆矩阵进行运算，得到运算结果，包括：

按照预设算法对所述语音识别结果和音素混淆矩阵运算，得到多个混淆概率值，其中，所述多个混淆概率值用于指示所述运算结果。

5.根据权利要求4所述的方法，其特征在于，根据运算结果对所述语音识别结果进行修正，包括：

从所述多个混淆概率值中选择混淆概率值最大所对应的正确结果的音速序列；

根据所述混淆概率最大所对应的正确结果的音速序列对所述语音识别结果进行修正。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标对象的语料数据；

根据获取到的所述语料数据确定所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列，其中，M为正整数；

根据所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列确定所述目标对象的音素混淆矩阵。

7.根据权利要求6所述的方法，其特征在于，根据所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列确定所述目标对象的音素混淆矩阵之后，所述方法还包括：

在接收到所述目标对象的语音数据的情况下，对所述目标对象的语音数据进行识别，以得到基于音素的目标识别结果；

根据所述目标对象的音素混淆矩阵对所述目标识别结果进行修正。

8.一种语音文本的输出装置，其特征在于，包括：

确定模块，用于对目标语音进行语音识别，得到基于音素的语音识别结果；

处理模块，用于根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；

其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于海尔优家智能科技（北京）有限公司，未经海尔优家智能科技（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010464302.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载