[发明专利]语音识别纠错方法、装置及存储介质在审
申请号: | 202110163752.X | 申请日: | 2021-02-05 |
公开(公告)号: | CN112735396A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 魏天闻;杞坚玮;秦斌 | 申请(专利权)人: | 北京小米松果电子有限公司 |
主分类号: | G10L15/187 | 分类号: | G10L15/187;G10L15/26;G06K9/62;G06F40/232 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 纠错 方法 装置 存储 介质 | ||
本公开涉及一种语音识别纠错方法、装置及存储介质。语音识别纠错方法,包括:获取针对待识别语音进行自动语音识别后得到的汉字序列;获取与所述汉字序列对应的拼音序列;将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。通过本公开,对语音识别后得到的文字进行纠错时,可提升纠错的准确率。
技术领域
本公开涉及语音识别技术,尤其涉及一种语音识别纠错方法、装置及存储介质。
背景技术
自动语音识别(Automatic Speech Recognition,ASR)是一种将人的语音转换为文本的技术。随着终端技术的发展,各种智能终端的计算能力和存储容量有了很大进步,使得语音识别技术在智能终端中得以广泛应用。
在语音识别技术中,需要准确识别语音因素,基于准确识别的语音因素才能转换为文本。但是不论是哪种语言,都会因为各种因素导致ASR对语音识别出现错误的情况。
进而,如何将语音转换为准确的文本,是目前亟需解决的问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种语音识别纠错方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种语音识别纠错方法,语音识别纠错方法,包括:
获取针对待识别语音进行自动语音识别后得到的汉字序列;
获取与所述汉字序列对应的拼音序列;
将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。
可选地,获取与所述汉字序列对应的拼音序列包括:
从预先确定的汉字到拼音的映射表中,查找所述汉字序列包括的各汉字分别对应的拼音;
基于所述各汉字分别对应的拼音,得到所述拼音序列。
可选地,所述汉字到拼音的映射表包括发音相似的第一汉字和第二汉字,以及与所述第一汉字对应的第一拼音和与所述第二汉字对应的第二拼音,其中,所述第一拼音和所述第二拼音之间的编辑距离小于预设的编辑距离阈值,所述编辑距离表征所述第一拼音转换成所述第二拼音所需要的最少编辑次数。
可选地,所述纠错模型包括汉字编码子模型和拼音编码子模型;
所述通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,包括:
通过所述汉字编码子模型对所述汉字序列中包括的各汉字进行编码,得到各汉字特征向量,并
通过所述拼音编码子模型对所述拼音序列中包括的拼音进行编码,得到各拼音特征向量;
所述根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列,包括:
对所述各汉字特征向量和所述各拼音特征向量进行拼接,得到各汉字拼接向量;
对所述各汉字拼接向量进行预测,输出包括目标汉字的目标汉字序列。
可选地,通过如下方式预先训练得到所述纠错模型:
基于汉字纠错样本集预先训练得到所述纠错模型;
其中,所述汉字纠错样本集包括多对训练样本,所述多对训练样本中的每一对训练样本包括误识别汉字样本以及与所述误识别汉字样本对应的正确汉字样本,所述误识别汉字样本包括误识别汉字序列和误识别汉字序列的拼音序列。
可选地,所述基于汉字纠错样本集预先训练得到所述纠错模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司,未经北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110163752.X/2.html,转载请声明来源钻瓜专利网。