[发明专利]语音识别纠错方法、装置及存储介质在审
申请号: | 202110163752.X | 申请日: | 2021-02-05 |
公开(公告)号: | CN112735396A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 魏天闻;杞坚玮;秦斌 | 申请(专利权)人: | 北京小米松果电子有限公司 |
主分类号: | G10L15/187 | 分类号: | G10L15/187;G10L15/26;G06K9/62;G06F40/232 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 纠错 方法 装置 存储 介质 | ||
1.一种语音识别纠错方法,其特征在于,包括:
获取针对待识别语音进行自动语音识别后得到的汉字序列;
获取与所述汉字序列对应的拼音序列;
将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。
2.根据权利要求1所述的语音识别纠错方法,其特征在于,获取与所述汉字序列对应的拼音序列包括:
从预先确定的汉字到拼音的映射表中,查找所述汉字序列包括的各汉字分别对应的拼音;
基于所述各汉字分别对应的拼音,得到所述拼音序列。
3.根据权利要求2所述的语音识别纠错方法,其特征在于,所述汉字到拼音的映射表包括发音相似的第一汉字和第二汉字,以及与所述第一汉字对应的第一拼音和与所述第二汉字对应的第二拼音,其中,所述第一拼音和所述第二拼音之间的编辑距离小于预设的编辑距离阈值,所述编辑距离表征所述第一拼音转换成所述第二拼音所需要的最少编辑次数。
4.根据权利要求1所述的语音识别纠错方法,其特征在于,所述纠错模型包括汉字编码子模型和拼音编码子模型;
所述通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,包括:
通过所述汉字编码子模型对所述汉字序列中包括的各汉字进行编码,得到各汉字特征向量,并
通过所述拼音编码子模型对所述拼音序列中包括的拼音进行编码,得到各拼音特征向量;
所述根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列,包括:
对所述各汉字特征向量和所述各拼音特征向量进行拼接,得到各汉字拼接向量;
对所述各汉字拼接向量进行预测,输出包括目标汉字的目标汉字序列。
5.根据权利要求1所述的语音识别纠错方法,其特征在于,通过如下方式预先训练得到所述纠错模型:
基于汉字纠错样本集预先训练得到所述纠错模型;
其中,所述汉字纠错样本集包括多对训练样本,所述多对训练样本中的每一对训练样本包括误识别汉字样本以及与所述误识别汉字样本对应的正确汉字样本,所述误识别汉字样本包括误识别汉字序列和误识别汉字序列的拼音序列。
6.根据权利要求5所述的语音识别纠错方法,其特征在于,所述基于汉字纠错样本集预先训练得到所述纠错模型,包括:
对所述误识别汉字序列中的各汉字进行编码,得到误识别汉字特征向量序列,并
对所述误识别拼音序列中的各拼音进行编码,得到误识别拼音特征向量序列;
对所述误识别汉字特征向量序列包括的各汉字特征向量,以及所述误识别拼音特征向量序列包括的各拼音特征向量进行拼接,得到误识别拼接向量序列;
对所述误识别拼接向量序列中每一个拼接向量进行预测,得到预测的每一个汉字;
根据所述预测的每一个汉字,确定所述预测的每一个汉字的损失值;
根据所述每一个汉字的损失值,确定所述误识别汉字序列的总损失值;
根据所述总损失值,对模型进行训练,直至所述总损失值符合训练结束条件时,将训练结束时的模型确定为纠错模型。
7.一种语音识别纠错装置,其特征在于,包括:
获取模块,被配置为获取针对待识别语音进行自动语音识别后得到的汉字序列,并获取与所述汉字序列对应的拼音序列;
处理模块,被配置为将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。
8.根据权利要求1所述的语音识别纠错装置,其特征在于,所述汉字到拼音的映射表包括发音相似的第一汉字和第二汉字,以及与所述第一汉字对应的第一拼音和与所述第二汉字对应的第二拼音,其中,所述第一拼音和所述第二拼音之间的编辑距离小于预设的编辑距离阈值,所述编辑距离表征所述第一拼音转换成所述第二拼音所需要的最少编辑次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司,未经北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110163752.X/1.html,转载请声明来源钻瓜专利网。